GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
This media is not supported in your browser
VIEW IN TELEGRAM
2🥱52🔥37👍14 11💩10💋4❤🔥1☃1
Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.
В чем проблема субфронтира?В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
В чем проблема субфронтира?
ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.
большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍5 2🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем
https://forms.gle/rmCjL3SemzQuVyyt9
https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.
Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.
На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.
VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.
Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.
Статья
1🔥41 16👍5😁1💩1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня ты на фкн сидишь, а завтра — «вам без лука?» — говоришь
😁113😢12🔥3🍓2💅1 1
Forwarded from Dendi Math&AI (Денис Димитров)
⚡ Салют, Гига! — уже сегодня
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
🔘 об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘 о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘 о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘 об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘 о добавлении синхронного аудио к видео при генерации;
🔘 о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘 о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘 даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘 и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
sb-meetup.jugru.org
Салют, Гига!
Конференция Сбера
🗿24💩16👍12🔥6❤🔥2
Димитров_CалютГИГА_10.12.25_FINAL.pdf
27.4 MB
а презу интересно полистать саму по себе
1💩22👍20🔥4❤🔥3
Я не очень хочу превращать в канал в "я сгонял на нипс и смотрите какие умные презы" но если хотите я могу притащить презы с нипса и не только которые мне понравились за последние пару недель
1👍205😁41 8🔥5👏1 1
Типичный диалог в гей клубе
Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."
Собеседник:
"Давай вернусь с ответом в ..."
Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"
Собеседник:
"О, а я не обратил внимания, что ты пидрила"
Или другая ветка
Я:
"Приветствую!
Я пидрила, сосу за сырки..."
Собеседник:
"Привет! ... Где работаешь кстати?"
Я:
"В ресерче, а ты?"
Собеседник:
"О, а я в мехинте"
Вот и пересекаемся 😂
Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."
Собеседник:
"Давай вернусь с ответом в ..."
Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"
Собеседник:
"О, а я не обратил внимания, что ты пидрила"
Или другая ветка
Я:
"Приветствую!
Я пидрила, сосу за сырки..."
Собеседник:
"Привет! ... Где работаешь кстати?"
Я:
"В ресерче, а ты?"
Собеседник:
"О, а я в мехинте"
Вот и пересекаемся 😂
1😁68🥴22💊12🥱4 4👍3🔥3🍓3 1
Tim detters - ака автор bitsandbytes подхода для квантизаций который дал сильный буст всему современному в квантизации дропнули пост вида "Why AGI Will Not Happen"
Мне очень нравится
Blog
Мне очень нравится
Linear Progress Needs Exponential Resources
Blog
Tim Dettmers
Why AGI Will Not Happen — Tim Dettmers
If you are reading this, you probably have strong opinions about AGI, superintelligence, and the future of AI. Maybe you believe we are on the cusp of a transformative breakthrough. Maybe you are skeptical. This blog post is for those who want to think more…
This media is not supported in your browser
VIEW IN TELEGRAM
Я пожалуй выберу все же не ИИ рекламу, а душевную рекламу супермаркета...
https://news.1rj.ru/str/denissexy/11039
https://news.1rj.ru/str/denissexy/11039
2👍94💔36💯8🥱3🔥2🤔1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели
жаль не опенсурс, апи есть но мне лень
habr
Ps
я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели
жаль не опенсурс, апи есть но мне лень
habr
Ps
я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно
Love. Death. Transformers.
яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же - поменяли токенайзер - дотрен - мидтрен - алаймент с ризонингом(у гигачата нет ризнинга) - в целом RL пиздато завели жаль не опенсурс, апи есть но мне лень habr Ps я не…
А если вы понимаете что здесь написано или таким занимаетесь, то приходите работать в whitecircle.ai строить лучший aligment для reward modeling (SOTA на RM bench), а так же защищать весь бесконечный поток аи вайбкодинга:
https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
Ashbyhq
AI Engineer
AI Engineer • White Circle
😁68🫡12🍓5 5👍2💊2🔥1