Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
happy internet death day
👏112🤔27109🔥21
Love. Death. Transformers.
GS AI In a Bubble 2025.pdf
Продолжим.

В чем проблема субфронтира? В том что это не фронтир Строить dl сложно, строить современный dl где стало много SWE еще сложнее. В итоге LLM становится yet another backend module, я бы сказал что часто челы которые хорошо пишут промпты и понимают концепции типа react/toolcalling/structured output полезнее чем ресерчеры(слово дебильное), а по итогу проще переплачивать за фронтир и иметь довольных пользователей чем ебать голову что там очередная китайская поделка выдала и как с этим жить



ну и да, margin у лавбла/курсора/что угодно ощутимо больше чем у очередной ролеплей дрочильни на опенсурсе.

большой пост https://news.1rj.ru/str/WaveCut_Vibin/149
2😭38🔥9👍52🍓1
я тут собираю новый мем про нищету на грани выжидания, помогите собрать статистику на мем

https://forms.gle/rmCjL3SemzQuVyyt9
1🫡41🔥3
Forwarded from AbstractDL
Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья
1🔥4116👍5😁1💩1🥱1
Я ПРОГРАММИСТ И У МЕНЯ НЕТ ВРЕМЕНИ НА ЭТО, МНЕ НУЖНО ЗАРАБАТЫВАТЬ БАБКИ
Я ПОКУПАЮ ТЕБЯ
🤗13852😁2811🔥8💯5❤‍🔥1💔1😡1
э, mmlu по металлам от норникеля, просто живите с этим ладно?

alloy bench
и файнтюн квена на металл
🍓71🥴2314🔥8😁44🤔22
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня ты на фкн сидишь, а завтра — «вам без лука?» — говоришь
😁113😢12🔥3🍓2💅11
Forwarded from Dendi Math&AI (Денис Димитров)
Салют, Гига! — уже сегодня

Обещал вернуться с программой — вот она.

Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)

Поговорим:
🔘об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘о добавлении синхронного аудио к видео при генерации;
🔘о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях

Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода

В общем, будет очень насыщенно, интересно и полезно!

Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)

Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿24💩16👍12🔥6❤‍🔥2
Димитров_CалютГИГА_10.12.25_FINAL.pdf
27.4 MB
а презу интересно полистать саму по себе
1💩22👍20🔥4❤‍🔥3
Я не очень хочу превращать в канал в "я сгонял на нипс и смотрите какие умные презы" но если хотите я могу притащить презы с нипса и не только которые мне понравились за последние пару недель
1👍205😁418🔥5👏11
Главное не просить авторов посмотреть на mmlu
1😁19🔥8
Типичный диалог в гей клубе

Я:
"Приветствую!
Я Саша из ресерча, занимаюсь ..
Хочу уточнить такой вопрос: ..."

Собеседник:
"Давай вернусь с ответом в ..."

Я:
"Фига, не знал, что ты админ канала лав дес трансформерс"

Собеседник:
"О, а я не обратил внимания, что ты пидрила"

Или другая ветка

Я:
"Приветствую!
Я пидрила, сосу за сырки..."

Собеседник:
"Привет! ... Где работаешь кстати?"

Я:
"В ресерче, а ты?"

Собеседник:
"О, а я в мехинте"

Вот и пересекаемся 😂
1😁68🥴22💊12🥱44👍3🔥3🍓31
Tim detters - ака автор bitsandbytes подхода для квантизаций который дал сильный буст всему современному в квантизации дропнули пост вида "Why AGI Will Not Happen"

Мне очень нравится

Linear Progress Needs Exponential Resources



Blog
33😁147👍4🔥2🤔2💯1
Дата центр на батарейках в виде префаба, датацентр на колесах, 4 RPI с кубиком, everything is datacenter if you're brave enough
👍37🥴15🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Я пожалуй выберу все же не ИИ рекламу, а душевную рекламу супермаркета...

https://news.1rj.ru/str/denissexy/11039
2👍94💔36💯8🥱3🔥2🤔1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
яндекс дотюнил квен 235b, вышло в среднем лучше, по технологиям и скиллсету так же
- поменяли токенайзер
- дотрен
- мидтрен
- алаймент с ризонингом(у гигачата нет ризнинга)
- в целом RL пиздато завели

жаль не опенсурс, апи есть но мне лень
habr

Ps

я не сомневаюсь и не ставлю под сомнение харды и навык команды которая это делала, но не поржать над посылом "НАШ СУВЕРЕННЫЙ СДЕЛАННО У НАС (доученный квен)" я не могу, это слишком смешно
77😁38🔥16💩6👍4😢42
This media is not supported in your browser
VIEW IN TELEGRAM
😁10728🔥7💩2💯1
Теперь все месте, твёрдо и четко:

Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.

НЕ ФА*Н*ЮН.
😁105🔥15💯9🍓3💅22👍1😍1