😁18🤡9👾2❤1
Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.
ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem
# TL;DR
Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.
Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1403
ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem
# TL;DR
Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.
Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1403
arXiv.org
ARC Is a Vision Problem!
The Abstraction and Reasoning Corpus (ARC) is designed to promote research on abstract reasoning, a fundamental aspect of human intelligence. Common approaches to ARC treat it as a...
🔥21❤6🤷♀2👍2🤮1
Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (https://news.1rj.ru/str/gonzo_ML/4092), в новом добавили низкоранговую факторизацию.
Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья: https://arxiv.org/abs/2511.16652
Код: https://eshyperscale.github.io/
Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale
# TL;DR
ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с
ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1418
Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья: https://arxiv.org/abs/2511.16652
Код: https://eshyperscale.github.io/
Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale
# TL;DR
ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с
O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели.ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью
O(1/r).Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1418
Telegram
gonzo-обзоры ML статей
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые…
🔥22
Тут MS анонсировали крутую маленькую агентную модельку Fara-7B для Computer Use Agent (CUA). Умеет воспринимать скриншоты и действия с GUI.
Кто-нибудь уже пробовал?
Блог: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
Репорт: https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
Репа: https://github.com/microsoft/fara
Кто-нибудь уже пробовал?
Блог: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
Репорт: https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
Репа: https://github.com/microsoft/fara
Microsoft Research
Fara-7B: An efficient agentic small language model for computer use
Fara-7B is our first agentic small language model for computer use. This experimental model includes robust safety measures to aid responsible deployment. Despite its size, Fara-7B holds its own against larger, more resource-intensive agentic systems:
👍5✍2
Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится. #ВсёКакУЛюдей
Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
Статья: https://arxiv.org/abs/2511.15593
Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai
# TL;DR
ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов.
ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1430
Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (https://news.1rj.ru/str/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: https://news.1rj.ru/str/rybolos_channel/1670
Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
Статья: https://arxiv.org/abs/2511.15593
Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai
# TL;DR
ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов.
ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1430
Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (https://news.1rj.ru/str/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: https://news.1rj.ru/str/rybolos_channel/1670
arXiv.org
MLE-bench: Evaluating Machine Learning Agents on Machine Learning...
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a...
❤8🔥4
Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для ризонинга.
Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
Статья: https://arxiv.org/abs/2511.16664
Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B
Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient
# TL;DR
ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение.
ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1441
Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
Статья: https://arxiv.org/abs/2511.16664
Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B
Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient
# TL;DR
ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение.
ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1441
Substack
Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath…
👍13❤1