NEW BOT Телеграм, страница - 372977366

gonzo-обзоры ML статей

24.1K subscribers

2.72K photos

2 videos

3 files

1.34K links

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Download Telegram

About

Blog

Apps

Platform

gonzo-обзоры ML статей

24.1K subscribers

gonzo-обзоры ML статей

4.69K views18:29

gonzo-обзоры ML статей

Краткий пересказ для тех, кому некогда читать:

😁54❤12🤣7🤡5🔥4👍2🌚1

4.73K views18:33

gonzo-обзоры ML статей

Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (https://news.1rj.ru/str/gonzo_ML/4092), в новом добавили низкоранговую факторизацию.

Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья: https://arxiv.org/abs/2511.16652
Код: https://eshyperscale.github.io/
Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale

# TL;DR

ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели.

ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью O(1/r).

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1418

gonzo-обзоры ML статей

Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые…

🔥22

4.5K views11:07

gonzo-обзоры ML статей

4.24K views11:08

gonzo-обзоры ML статей

Ну и для тех, кто не любит читать :)

😁34❤6👍5🔥2🤡1

4.27K views11:08

gonzo-обзоры ML статей

Тут MS анонсировали крутую маленькую агентную модельку Fara-7B для Computer Use Agent (CUA). Умеет воспринимать скриншоты и действия с GUI.

Кто-нибудь уже пробовал?

Блог: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
Репорт: https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
Репа: https://github.com/microsoft/fara

Microsoft Research

Fara-7B: An efficient agentic small language model for computer use

Fara-7B is our first agentic small language model for computer use. This experimental model includes robust safety measures to aid responsible deployment. Despite its size, Fara-7B holds its own against larger, more resource-intensive agentic systems:

👍5✍2

4.8K viewsedited 23:34

gonzo-обзоры ML статей

👍9

4.51K views23:34

gonzo-обзоры ML статей

Свежий подкаст с Ильёй

https://open.substack.com/pub/dwarkesh/p/ilya-sutskever-2

Ilya Sutskever – We're moving from the age of scaling to the age of research

“These models somehow just generalize dramatically worse than people. It's a very fundamental thing.”

👍17❤6

4.28K views18:01

gonzo-обзоры ML статей

Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится. #ВсёКакУЛюдей

Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
Статья: https://arxiv.org/abs/2511.15593
Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai

# TL;DR

ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов.

ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1430

Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (https://news.1rj.ru/str/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: https://news.1rj.ru/str/rybolos_channel/1670

MLE-bench: Evaluating Machine Learning Agents on Machine Learning...

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a...

❤8🔥4

4.73K viewsedited 19:29

gonzo-обзоры ML статей

Ну вы поняли...

😁32👍5❤1👎1

4.57K views19:30

gonzo-обзоры ML статей

Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для ризонинга.

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
Статья: https://arxiv.org/abs/2511.16664
Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B
Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient

# TL;DR

ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение.

ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1441

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

Authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath…

👍13❤1

4.1K viewsedited 23:36

gonzo-обзоры ML статей

3.96K views23:37

gonzo-обзоры ML статей

🔥19🤣5

3.82K views23:37

gonzo-обзоры ML статей

Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно добавляем их к более глубоким слоям. ResNet -> StepsNet.

Step by Step Network
Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang
Статья: https://arxiv.org/abs/2511.14329
Ревью: https://arxiviq.substack.com/p/step-by-step-network

# TL;DR

ЧТО сделали? Авторы предложили StepsNet — новую макро-архитектуру, которая меняет подход к построению глубоких сетей. Вместо одновременной обработки всех входных каналов, StepsNet использует каскадную схему «шаг за шагом»: вход расщепляется, часть каналов обрабатывается сразу, а остальные постепенно вводятся в более глубокие слои.

ЗАЧЕМ это нужно? Это решает проблему «деградации шорткатов» (shortcut degradation), из-за которой в сверхглубоких сетях (сотни слоёв) сигнал тонет в шуме. Сохраняя «чистые» пути для сигнала в глубину и ломая привычный компромисс между шириной и глубиной, StepsNet позволяет масштабировать модели почти до 500 слоёв. При этом метрики на ImageNet и COCO растут, а количество параметров не увеличивается.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1452

Step by Step Network

Scaling up network depth is a fundamental pursuit in neural architecture design, as theory suggests that deeper models offer exponentially greater capability. Benefiting from the residual...

❤5🔥4👍1

4.16K views08:52

gonzo-обзоры ML статей

🔥2

3.95K views08:52

gonzo-обзоры ML статей

4.18K views08:52

gonzo-обзоры ML статей

Извинити )) [А Васе Ложкину отдельный респект]

2😁87🔥23🤩9❤7🤡3

4.43K viewsedited 08:52

gonzo-обзоры ML статей

Постить комиксы?

Anonymous Poll

Ну нафиг

😁4🦄1

974 voters3.96K views10:10

gonzo-обзоры ML статей

Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Статья: https://arxiv.org/abs/2510.22954
Код: https://github.com/liweijiang/artificial-hivemind
Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0
Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind

# TL;DR

ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model).

ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1468

Artificial Hivemind: The Open-Ended Homogeneity of Language Models...

Language models (LMs) often struggle to generate diverse, human-like creative content, raising concerns about the long-term homogenization of human thought through repeated exposure to similar...

👍25❤7🔥3😁1👌1

7.24K views18:02

gonzo-обзоры ML статей

4.25K views18:02

gonzo-обзоры ML статей

1🔥63😁32❤4🤮4👍1

4.55K views18:03