Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.
В чем проблема субфронтира?В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
В чем проблема субфронтира?
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍5 2🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем
https://forms.gle/rmCjL3SemzQuVyyt9
https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
1🔥41 16👍5😁1💩1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня ты на фкн сидишь, а завтра — «вам без лука?» — говоришь
😁113😢12🔥3🍓2💅1 1
Forwarded from Dendi Math&AI (Денис Димитров)
⚡ Салют, Гига! — уже сегодня
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
🔘 об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘 о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘 о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘 об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘 о добавлении синхронного аудио к видео при генерации;
🔘 о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘 о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘 даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘 и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
sb-meetup.jugru.org
Салют, Гига!
Конференция Сбера
🗿24💩16👍12🔥6❤🔥2
Димитров_CалютГИГА_10.12.25_FINAL.pdf
27.4 MB
а презу интересно полистать саму по себе
1💩22👍20🔥4❤🔥3
Я не очень хочу превращать в канал в "я сгонял на нипс и смотрите какие умные презы" но если хотите я могу притащить презы с нипса и не только которые мне понравились за последние пару недель
1👍205😁41 8🔥5👏1 1
Типичный диалог в гей клубе
Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."
Собеседник:
"Давай вернусь с ответом в ..."
Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"
Собеседник:
"О, а я не обратил внимания, что ты пидрила"
Или другая ветка
Я:
"Приветствую!
Я пидрила, сосу за сырки..."
Собеседник:
"Привет! ... Где работаешь кстати?"
Я:
"В ресерче, а ты?"
Собеседник:
"О, а я в мехинте"
Вот и пересекаемся 😂
Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."
Собеседник:
"Давай вернусь с ответом в ..."
Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"
Собеседник:
"О, а я не обратил внимания, что ты пидрила"
Или другая ветка
Я:
"Приветствую!
Я пидрила, сосу за сырки..."
Собеседник:
"Привет! ... Где работаешь кстати?"
Я:
"В ресерче, а ты?"
Собеседник:
"О, а я в мехинте"
Вот и пересекаемся 😂
1😁68🥴22💊12🥱4 4👍3🔥3🍓3 1
Tim detters - ака автор bitsandbytes подхода для квантизаций который дал сильный буст всему современному в квантизации дропнули пост вида "Why AGI Will Not Happen"
Мне очень нравится
Blog
Мне очень нравится
Linear Progress Needs Exponential Resources
Blog
Tim Dettmers
Why AGI Will Not Happen — Tim Dettmers
If you are reading this, you probably have strong opinions about AGI, superintelligence, and the future of AI. Maybe you believe we are on the cusp of a transformative breakthrough. Maybe you are skeptical. This blog post is for those who want to think more…
This media is not supported in your browser
VIEW IN TELEGRAM
Я пожалуй выберу все же не ИИ рекламу, а душевную рекламу супермаркета...
https://news.1rj.ru/str/denissexy/11039
https://news.1rj.ru/str/denissexy/11039
2👍94💔36💯8🥱3🔥2🤔1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели
жаль не опенсурс, апи есть но мне лень
habr
Ps
я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели
жаль не опенсурс, апи есть но мне лень
habr
Ps
я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно
Love. Death. Transformers.
яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же - поменяли токенайзер - дотрен - мидтрен - алаймент с ризонингом(у гигачата нет ризнинга) - в целом RL пиздато завели жаль не опенсурс, апи есть но мне лень habr Ps я не…
А если вы понимаете что здесь написано или таким занимаетесь, то приходите работать в whitecircle.ai строить лучший aligment для reward modeling (SOTA на RM bench), а так же защищать весь бесконечный поток аи вайбкодинга:
https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
Ashbyhq
AI Engineer
AI Engineer • White Circle
😁68🫡12🍓5 5👍2💊2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
😁107 28🔥7💩2💯1
Forwarded from Старший Авгур
Теперь все месте, твёрдо и четко:
Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.
НЕ ФА*Н*ЮН.
Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.
НЕ ФА*Н*ЮН.
😁105🔥15💯9🍓3💅2 2👍1😍1
DOOM исполнилось 32 года — игре, которую научились запускать на самых неожиданных устройствах.
Фанаты переносили её на умные часы, графические калькуляторы, банкоматы, холодильники, осциллографы и прочее железо, которое изначально точно не планировалось для игр.
Мы тут спросили у ГигаЧата, почему DOOM стал таким вездесущим. ИИ-помощник через свою новую функцию голосового общения объяснил, что это прямое отражение силы Open Source. Суть проста: открытость кода DOOM и его архитектуры (да, оригинальный код открыт) позволяет энтузиастам легко портировать, модифицировать и оптимизировать игру под что угодно.
Кстати, кто помнит, на чем самом странном вы видели DOOM?
Фанаты переносили её на умные часы, графические калькуляторы, банкоматы, холодильники, осциллографы и прочее железо, которое изначально точно не планировалось для игр.
Мы тут спросили у ГигаЧата, почему DOOM стал таким вездесущим. ИИ-помощник через свою новую функцию голосового общения объяснил, что это прямое отражение силы Open Source. Суть проста: открытость кода DOOM и его архитектуры (да, оригинальный код открыт) позволяет энтузиастам легко портировать, модифицировать и оптимизировать игру под что угодно.
Кстати, кто помнит, на чем самом странном вы видели DOOM?
🔥70😁67🗿27💩20💊6 6 5👍2🥴2 2
https://platform.openai.com/docs/models/gpt-5.2
Да ща выйдет 5 версия, нейминг станет лучше нуну. По бенчам лучше, по вайбу sonnet по прежнему лучший
Да ща выйдет 5 версия, нейминг станет лучше нуну. По бенчам лучше, по вайбу sonnet по прежнему лучший
Openai
GPT-5.2 Model | OpenAI API
1❤🔥20😭6🤔3🔥1💩1