Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from Vikhr models
Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain

👥 Авторы: @LakoMoorDev @nlpwanderer
42🤮26👍16🔥10🍓7❤‍🔥2😨2👎1🥴1
Forwarded from Al Talent Hub
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 Перенос Open Talks с Борисом Цейтлиным

Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏

Новая дата: 28 февраля 19:00 мск

Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!

Спасибо за понимание и увидимся на Open Talks ❤️
🍓1
Пришло 3 месяца с выхода дипсика. В опенаишной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
3😁12829👍8💯6🤔1
зато время пока sora выходила в EC вышла wan2.1 1.3b работающая на ноутбуке и в целом не сильно хуже.
😁5119👍4
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Все же Sora может быть правда красивой, очень хочется v2
2🥴41🔥14💩4👍1
Love. Death. Transformers.
Как говорили эксперты и инсайдеры: 4.5 ака orion будет однозначной sota. Пока что только по цене, но надо смотреть downstream тесты и трогать руками. То что было на LLM arena как orion было очень приятным
Что важно по релизу:

Во время обучения уходило куча людей, от руководителей ресерча до стримлидов и рядовых пахателей. Это важно. Этот релиз, поздний релиз соры, 4о которая не omni и не генерит картинки - вероятно следствие кризиса осени 23.

Это первая модель такого масштаба которая доехала до прода. Судя по TPS, тому что у вендоров есть н200 и тд это действительно самая жирная модель из когда либо задеплоиных в паблик.

Интересна как артифакт загибания сигмоиды масштабирования для этой архитектуры и этих данных(как bloom 175b в свое время)

Модель и правда мало интересна с точки зрения реального использования, но как вариация - у нас на 2-10н200 нод раскатан zip архив интернета в котором можно ковыряться и выяснять что она знает, а что нет - более чем. Ну например она знает в подробностях один не популярный фанфик из 10х который выходил в ВК. База для roleplay очень интересная.


Не говорю что хороним, у них топ1 по объему синта, куча гпу и опыта. Ребята задавали тренды на ресерч и прод последние лет 7, так что ещё увидим.
👍55🍓16❤‍🔥4🔥4🗿2
Неделя открытого кода от deepseek

День1 - Flash MLA
Cобственно есть разные варианты attn head, есть MHA, GQA, MQA и прочее. Для них есть кернелы(вставки в код на c++ которые позволяют ускорять операции на GPU) ну DeepSeek используют свой вариант - MLA, для него релизнули кернелы. Теперь это затащат в vllm/sglang и прочее и жить станет веселее.

День2 - DeepEP
Обучениe MoE из коробки довольно не эффективная штука если вы случайно не гений. Нужно писать умные стратегии паралелизма, раскладывать экспертов по нодам и вообще оптимизировать коммуникации всеми возможными способами.
Собственно DeepSeek релизит свой expert paralelesim. Код чистый советую потыкатся и поигратся.

День3 - DeepGemm
Учат DeepSeekи на Hopper, поэтому им актуально иметь FP8 совместимые kernel для перемножения матриц(и численно не взрывается и ускорение ощутимое)

День4 - DualPipe
Вариант Pipeline паралелизма ускорения пузырька в коммуникациях, за счет чего ожидание степа меньше, быстрее учимся и тд. Я не претреню довольно давно мне сложно оценить полезность.

День5 - 3fs
Если вы хотите обрабатывать 100тб данных вам надо уметь очень быстро пересылать данные между S3<—>training nodes и прочим. Ну и уметь быстро это читать.

День6 - IntoTheInfra
Балансируем нагрузку, перекидываем ноды с инференс в трейн и обратно и прочие интересные трюки. Из любопытного - за сутки обрабатывают 608б токенов на вход и генерят 170б. Думаю у ребят за месяц скопится где то пара ТРИЛЛИОНОВ токенов синты.
👍5821🔥9❤‍🔥6👏1🤔1
Love. Death. Transformers.
Неделя открытого кода от deepseek День1 - Flash MLA Cобственно есть разные варианты attn head, есть MHA, GQA, MQA и прочее. Для них есть кернелы(вставки в код на c++ которые позволяют ускорять операции на GPU) ну DeepSeek используют свой вариант - MLA, для…
Audio
не здесь этот код должен лежать, я такие репы видел только внутри оч серьезных претрен организаций в которых работают серьёзные динозавры с длинными хиршами.
😁24🥴6❤‍🔥5👍3💔1🍓1
Huggingface Reasoning Course

Горшочек продолжает варить годный контент, в рамках репликации R1 hf решили собрать целый курс по reasoning моделям!

Начнется 7 марта
🔥68👍16
Love. Death. Transformers.
Пришло 3 месяца с выхода дипсика. В опенаишной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
За пол недели активного тестирования выяснил:

модель пишет неплохие анекдоты про говно

Не понимает как работает fp8 matmul

умеет передумывать и исправлять ошибки с пинка

знает очень много паст с двача


С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o
50😍63😁43🔥4👍2😇11
Love. Death. Transformers.
x < 300 - лютейшая нищета на грани выживания 300 < x < 700,6 - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана 700,6к < x < 1,27кк - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C) 1,27кк < x < 2,27 миллиона…
0-100к не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях
🔥99😁36👍88🥴4
LLM дуреют с этого промпта, пока что не одна не смогла решить:


Coding test to filter out LLMs Instructions: should take <2m to do, please read carefully. You have n people in a room and you know that the probability of at least three people sharing a birthday is 0.50. Write a Python function def calculate_result() -> int to calculate how many rooms there are.
🍓6124😁19👍322
Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥18💅5😁3💩1
Forwarded from VF | Science
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍14💩5🎉3👏2😍21
reinforcementlearningreinforcementlearningreinforcementlearning

Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰

https://awards.acm.org/about/2024-turing

Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥70❤‍🔥11👍9🎉2🤷1
65👍28🥴11😁4💩4🤡3🔥2🤷‍♂1🤮1
Подарили мне старый сборник рассказов Пелевина, минвайл эти рассказы:
😁99❤‍🔥13💯5👍1🙈1
gpt4.5 заехала для подписчиков курсора и это ну.... тяжело сформулировать однозначое отношение, но святую воду и икону я принес на всякий случай
😁188🥴36🍓8🤡5🤮2
Qwen qwq 32b

Вероятно лучшая модель в своем размере на данный момент.

Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.

Папира еще нет, будем ждать, там вероятно самый сок.

На m4pro выдает бодрые 20тps, сопоставимо с 4.5

model
🔥346