gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Прогнал пока авторазбор Мамбы 3

Mamba-3: Improved Sequence Modeling Using State Space Principles
Статья: https://openreview.net/forum?id=HwCvaJOiCj (Under Review at ICLR 2026)
Ревью: https://arxiviq.substack.com/p/mamba-3-improved-sequence-modeling

# TL;DR


ЧТО сделали? Авторы представляют Mamba-3 — архитектурное развитие семейства моделей пространства состояний (SSM). Метод объединяет три ключевых технических улучшения: схему трапецеидальной дискретизации (вместо метода Эйлера), формулировку Multi-Input Multi-Output (MIMO) для повышения арифметической интенсивности вычислений и теоретическое обоснование, связывающее комплекснозначные SSM с Data-Dependent Rotary Embeddings (RoPE).

ЗАЧЕМ это нужно? Работа закрывает две главные слабости эффективных линейных моделей: неспособность решать задачи на отслеживание состояния (state-tracking), такие как чётность или арифметика, и плохую утилизацию железа (memory-bound) во время декодинга. Возвращая выразительность комплексной динамики без вычислительных накладных расходов, Mamba-3 задаёт новый фронт Парето эффективности инференса, обгоняя Mamba-2 и сильные бейзлайны трансформеров на стандартных бенчмарках.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1389
12👍10🔥2🤔1
Извинити, это всё просто прекрасно:
😁32💩4🥰3😍2
😁2510🤮5👍1🥰1👾1
🤣24💊72👍1
На этом закончу :)
😁2812💩2👍1🗿1
Не выполняем пятилетку!

https://x.com/DKokotajlo/status/1991564542103662729?s=20
😁18🤡9👾21
Но мы ждём сиквела! 2032
😁14💩8🫡4👍2🌚1
Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.

ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem

# TL;DR

Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.

Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1403
🔥226🤷‍♀2👍2🤮1
Краткий пересказ для тех, кому некогда читать:
😁5412🤣7🤡5🔥4👍2🌚1
Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (https://news.1rj.ru/str/gonzo_ML/4092), в новом добавили низкоранговую факторизацию.

Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья: https://arxiv.org/abs/2511.16652
Код: https://eshyperscale.github.io/
Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale

# TL;DR

ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели.

ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью O(1/r).

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1418
🔥22
Ну и для тех, кто не любит читать :)
😁346👍5🔥2🤡1
Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится. #ВсёКакУЛюдей

Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
Статья: https://arxiv.org/abs/2511.15593
Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai

# TL;DR

ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов.

ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1430

Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (https://news.1rj.ru/str/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: https://news.1rj.ru/str/rybolos_channel/1670
8🔥4
Ну вы поняли...
😁32👍51👎1