NEW BOT Телеграм, страница

gonzo-обзоры ML статей

Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для ризонинга.

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
Статья: https://arxiv.org/abs/2511.16664
Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B
Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient

# TL;DR

ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение.

ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1441

Substack

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

Authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath…

👍13❤1

4.09K viewsedited 23:36

gonzo-обзоры ML статей

3.95K views23:37

gonzo-обзоры ML статей

🔥19🤣5

3.82K views23:37

gonzo-обзоры ML статей

Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно добавляем их к более глубоким слоям. ResNet -> StepsNet.

Step by Step Network
Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang
Статья: https://arxiv.org/abs/2511.14329
Ревью: https://arxiviq.substack.com/p/step-by-step-network

# TL;DR

ЧТО сделали? Авторы предложили StepsNet — новую макро-архитектуру, которая меняет подход к построению глубоких сетей. Вместо одновременной обработки всех входных каналов, StepsNet использует каскадную схему «шаг за шагом»: вход расщепляется, часть каналов обрабатывается сразу, а остальные постепенно вводятся в более глубокие слои.

ЗАЧЕМ это нужно? Это решает проблему «деградации шорткатов» (shortcut degradation), из-за которой в сверхглубоких сетях (сотни слоёв) сигнал тонет в шуме. Сохраняя «чистые» пути для сигнала в глубину и ломая привычный компромисс между шириной и глубиной, StepsNet позволяет масштабировать модели почти до 500 слоёв. При этом метрики на ImageNet и COCO растут, а количество параметров не увеличивается.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1452

arXiv.org

Step by Step Network

Scaling up network depth is a fundamental pursuit in neural architecture design, as theory suggests that deeper models offer exponentially greater capability. Benefiting from the residual...

❤5🔥4👍1

4.15K views08:52

gonzo-обзоры ML статей

🔥2

3.95K views08:52

gonzo-обзоры ML статей

4.18K views08:52

gonzo-обзоры ML статей

Извинити )) [А Васе Ложкину отдельный респект]

2😁87🔥23🤩9❤7🤡3

4.42K viewsedited 08:52

gonzo-обзоры ML статей

Постить комиксы?

Anonymous Poll

😁4🦄1

974 voters3.96K views10:10

gonzo-обзоры ML статей

Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Статья: https://arxiv.org/abs/2510.22954
Код: https://github.com/liweijiang/artificial-hivemind
Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0
Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind

# TL;DR

ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model).

ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1468

arXiv.org

Artificial Hivemind: The Open-Ended Homogeneity of Language Models...

Language models (LMs) often struggle to generate diverse, human-like creative content, raising concerns about the long-term homogenization of human thought through repeated exposure to similar...

👍25❤7🔥3😁1👌1

7.21K views18:02

gonzo-обзоры ML статей

4.24K views18:02

gonzo-обзоры ML статей

1🔥63😁32❤4🤮4👍1

4.54K views18:03

gonzo-обзоры ML статей

Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.

Мультипликативные взаимодействия рулят, гейтированные функции активации тоже.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin (Qwen Team)
Статья: https://arxiv.org/abs/2505.06708, https://openreview.net/forum?id=1b7whO4SfY
Код: https://github.com/qiuzh20/gated_attention
Модель: https://huggingface.co/collections/Qwen/qwen3-next
Ревью: https://arxiviq.substack.com/p/neurips-2025-gated-attention-for

# TL;DR

Что сделали: Авторы представляют Gated Attention — механизм, добавляющий обучаемый зависимый от входа сигмоидный гейт сразу после выхода Scaled Dot-Product Attention (SDPA). Модулируя выход Y гейтом σ(XW_θ), метод вносит поэлементную разреженность и нелинейность перед финальной проекцией.

Зачем это нужно: Это простое архитектурное изменение даёт улучшенную стабильность при обучении больших моделей (убирает выбросы лосса) и стабильно улучшает перплексию на 15B MoE и 1.7B dense моделях. Главное — это механистически устраняет феномен "Attention Sink" и "Massive Activations" без всяких эвристических костылей типа "sink tokens", значительно улучшая экстраполяцию на длинный контекст.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1481

arXiv.org

Gated Attention for Large Language Models: Non-linearity,...

Gating mechanisms have been widely utilized, from early models like LSTMs and Highway Networks to recent state space models, linear attention, and also softmax attention. Yet, existing literature...

👍3❤1

4.21K views09:23

gonzo-обзоры ML статей

❤‍🔥2

3.74K views09:23

gonzo-обзоры ML статей

👍35🔥19❤7❤‍🔥2

4.03K views09:23

gonzo-обзоры ML статей

Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach
Статья: https://openreview.net/forum?id=s0JVsx3bx1
Код: https://wang-kevin3290.github.io/scaling-crl/
Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks

# TL;DR

ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным "обвесом": Residual connections, LayerNorm и активациями Swish.

ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1488

openreview.net

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can...

Scaling up self-supervised learning has driven breakthroughs in language and vision, yet comparable progress has remained elusive in reinforcement learning (RL). In this paper, we study building...

🔥16

4.14K views22:48

gonzo-обзоры ML статей

Интересный результат про скейлинг по размеру батча

3.65K views22:49

gonzo-обзоры ML статей

Крепитесь! Скоро наиграюсь 😁

😁100🤮12👍10❤7

4.01K views22:54

gonzo-обзоры ML статей

Красивое про размер транзистора

https://www.reddit.com/r/AICompanions/s/xrCXEf66qd

From the AICompanions community on Reddit: How small is a transistor on a modern processors?

Explore this post and more from the AICompanions community

🔥18

4.01K views23:42

gonzo-обзоры ML статей

Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard
Статья: https://openreview.net/forum?id=BSZqpqgqM0, https://arxiv.org/abs/2505.17638
Код: https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
Ревью: https://arxiviq.substack.com/p/neurips-2025-why-diffusion-models

# TL;DR

ЧТО сделали: Авторы провели теоретический и эмпирический анализ динамики обучения score-based диффузионных моделей. Понимая, что модели в конечном итоге могут переобучиться, исследователи выделили два различных временных масштаба: tau_gen, когда модель учится генерировать валидные сэмплы, и tau_mem, когда она начинает запоминать конкретные примеры из обучения. Работа получила Best Paper Award на NeurIPS 2025.

ПОЧЕМУ это важно: Статья разрешает парадокс: почему перепараметризованные диффузионные модели обладают хорошей обобщающей способностью, хотя имеют ёмкость для идеального запоминания обучающих данных. Доказав, что время начала запоминания tau_mem растёт линейно с размером датасета n, а время обучения генерации tau_gen остаётся константой, авторы утверждают: "ранняя остановка" (early stopping) — это не просто эвристика, а структурная необходимость, обусловленная неявной динамической регуляризацией. Это объясняет, почему увеличение датасетов расширяет "безопасное окно" для обучения, позволяя огромным моделям надёжно обобщать данные.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1504

openreview.net

Why Diffusion Models Don’t Memorize: The Role of Implicit...

Diffusion models have achieved remarkable success across a wide range of generative tasks. A key challenge is understanding the mechanisms that prevent their memorization of training data and allow...

👍6🤔3

4.15K views12:32

gonzo-обзоры ML статей

👍2❤1

4.06K views12:32

gonzo-обзоры ML статей

👍23😁15❤5👎2🤮2🥴1

4.21K views12:32

About

Blog

Apps

Platform