gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
А также появилась новая Gemma 3n, Matryoshka Transformer (MatFormer) для on-device deployments.

https://ai.google.dev/gemma/docs/gemma-3n
🔥12
Дождались ультры. Но не той.

250$ в месяц однако...
😁35😢31
Также неделя креатива объявляется открытой.

* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool на базе новой Veo 3 (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
* Imagen 4. Новый генератор картинок, 10x быстрее и лучше предыдущего
🤗2
В семействе Gemma пополнения!

* DolphinGemma (предобучена на звуках коммуникации дельфинов) уже не новость, но всё равно прикольно. Помните Project CETI, кстати?
* SignGemma для языка жестов (в первую очередь American Sign Language)
* MedGemma для медицины
* Gemma 3n с матрёшками внутри для эффективного on-device, уже упоминали сегодня.

Кстати, бахнул авторазбор статьи про MatFormer, на базе которого матрёшечная Gemma построена. Читать тут: https://news.1rj.ru/str/gonzo_ML_podcasts/144
🔥151
9🔥3😁2
Тем временем продолжаются эксперименты с автообзорами статей в канале https://news.1rj.ru/str/gonzo_ML_podcasts.

Из последнего и свежего:
* Статья от Тегмарка и ко про выучивание сильных узких моделей. Для которых правильный прунинг из большой общей модели оказывается лучше дистилляции, а в целом широкие и разнообразные данные таки нужны для более быстрого и качественного выучивания определённых навыков.
* Статья про ризонинг токены где на модельной задаче с поиском A* и лабиринтами показано, что трассировки CoT не обязательно являются достоверным отображением «рассуждений» модели, и «бессмысленные» промежуточные токены могут быть поразительно эффективны.
* Статья про механистичную оценку способностей трансформеров и SSM, показывающая что модели со схожей поведенческой производительностью могут использовать принципиально разные внутренние стратегии.

Поток статей каждый день валится огромный, всё разобрать нереально, так что буду продолжать делать это автоматически для статей, которые любопытны, но не настолько чтобы разбирать вручную. Режим вручную оставлю для самого вкусного.
1🔥24👍137
Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои

В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв.

Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle).

Ждём более умных подходов к обучению, им явно есть место!

P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.
1😁18🔥5👍21🍾1
gonzo-обзоры ML статей
Картинка подоспела https://x.com/deepseek_ai/status/1928061589107900779?t=K2G9KvaYQP3Sz_mtWKM1DA&s=19
Поразительно, конечно, изменился рынок за пару лет. Теперь центр топового опенсорса -- Китай.
76🐳16👍11💯11🥴6❤‍🔥1👌1
Очередная интересная статья от крутого коллектива, включающего Jeff Clune, Sakana AI и прочих. Sakana — это вообще, кажется, самая интересная лаба Азии. В очереди на разбор несколько других их свежих статей лежит. Разбирать пока некогда, как и сегодняшнюю Darwin Gödel Machine, так что пока автомат. Позже, возможно, сделаю отдельный разбор ручками.

Уже были агенты эволюционирующие (см. Gödel Agent, да и свежий AlphaEvolve тоже), теперь они ещё более эволюционирующие и open-ended. Крайне интересная тема!
🔥64