Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
#чтивонаночь по быстрому

CODEFUSION: A Pre-trained Diffusion Model for Code Generation

и
это прям умно - авторы берут претрен T5 еncoder, кидают его стейты в Denoiser(10 блоков трансформера - неизвестных) а в качестве декодера - 6 блоков декодера.
По метрика лучше чем соседи по классу, местами бьет 100кратно лучшие модели


а еще слили размер chatgpt, оказывается она всего то 20B.
Имаджинируете лица людей которые разгоняли что у open ai в проде 175b?



если тут будет очень много реакций я напишу нормальный обзор

paper
❤‍🔥72🦄15👾9🍾5👍2🤔2🤪21
😁96🥴158👍2🤯2
Бауманцы выдали базу. Горжусь!
156🔥40😁33🤡10❤‍🔥5🗿4👎2🆒1
Love. Death. Transformers.
Бауманцы выдали базу. Горжусь!
Верю в силу канала(знаю что подписано некоторое количество профессоров и руководителей разного уровня)

Пожалуйста - объяьсните коллегам в МГТУ что они очень сильно не правы, очевидно что угрозы не реализуются, но они сами ставят себя в заранее слабую позицию.
👍135🤡41🤣7🍓21🎉1
Короче, я тут обнаружил что очень мало людей знают о сущестовании longread_ов в этом канале, а значит я напомню что уже вышли:

Учим CLIP правильно - Sigmoid loss for TI pretrain
Cамагонная LM - phi1
RLAIF - lm учит Lm
ALIBI

(в teletype еще есть)

Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для русских карт: 5280417710524519
Для иностранных карт:
5269880013404165
3915👍4❤‍🔥2🖕2🏆1
#чтивонаночь - LLAVA 1.5
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!

teletype
paper
github
48👍8🤡6🤣43👎3🗿3
🥴69😁19😎4🎃3🤨1
Forwarded from Пресидский залив (Nadia ズエバ)
подборка классных сеток из мира audio processing 😎

1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс

2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может

3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс

4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)

5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо

6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..

7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда

8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио

9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно

10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут

пишите в комментах, что забыла 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥82❤‍🔥22👀1
Жена знакомого работает в Кембридже. Сегодня срочно вызвали на совещание. Вернулась поздно и ничего не объяснила. Сказала лишь собирать вещи и бежать на амазон за GPU на два девбокса. Сейчас едем кукухой. Не знаю что происходит, но мне кажется началось...
😁93👌8🥱5🤔2🍓2👍1
Forwarded from Жёлтый AI
Между тем, @kefirski в своем докладе спойлерил, что у нас скоро состоится TLab event, – так вот этот момент настал!

9 ноября в 19:00 студенты нашей Лаборатории расскажут, над чем они работали и что у них получилось:

- Соня про ранний выход из текстовых диффузий
- Кирилл про Deepfake Detection
- А Нурлан расскажет про то, как распознавать речь, состоящую из смеси языков

Приходите на ивент, на нем можно будет со всеми нами пообщаться, и может даже найти себе топовую позицию в Лабораторию 🎩
17👍4👎1🔥1🍓1
Занятная альтернатива prompt-tuning, апгрейд на бенчмарках GLUE и Super-GLUE. Понравилась работа из-за оценки схожести в эмбединговом пространстве множеств задач относительно друг друга

Теперь по-порядку: у prompt-tuning идея в том, что можно поставить виртуальные токены в начало и обучить только эту часть представлений.

Идея SPoT, а давайте не просто обучим, а сделаем некоторый codebook (как в vq-vae, но это условно, просто уж идея очень похожа). Как составить этот словарик? На ранних стадиях виртуальные токены берем, как значения эмбедингов задачи, а на лучшем чекпоинте (уже поучили), как source prompt (получаем словарь ключ – значение). При обучении, ищем самый близкий эмбединг задачи и настраиваем дальше его source prompt.

Смысл в том, что можно миксовать задачи и дообучать одну из другой, что судя по бенчам хорошо работает, а сам heatmap на третьем скрине

В общем-то еще один способ для мультитаска, а вот сам
🖥 код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13👎6👍21🤔1
Я был уверен что мне в ночи это приснилось, но оно ээээ существует?
YouTube music
🥴36🤗6👻5🗿2😁1🤡1
- ой, простите, а это ваша языковая модель?
- моя.
- а она код пишет?
- пишет.
- но он же не работает?
- не работает.
81😁24👍9🤣3😢2🐳2🥴1🙈1
Чуваки из HF сделали очень крутую демку: ты закидываешь историю или просто затравку к истории, с помощью llama генеряться промпты и они кидаются в разные файнтюны SDXL, на выходе вот такая красота:

demo
сode
🔥7031🤮1🍓1
Коротко: нашли промпт который отлично хакает защиту поверх Dalle3, а фильтры на CLIP они впилить забыли

нет, ну золото, просто золото.

Чо там, superaligment работает да?))) Классификаторы для лохов?)

нашел тут:https://news.1rj.ru/str/zhovner_hub/2027
😁58👀11👍6❤‍🔥21🤡1🖕1
@ Я прикручиваю какие-то костыли с Bing Dalle через попаболь
@ Сэм Альтман: срочно врубаем Dalle-3 в API

Пробовать там же
https://insomnia.land/#/image