gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Извинити )) [А Васе Ложкину отдельный респект]
2😁87🔥23🤩97🤡3
Постить комиксы?
Anonymous Poll
62%
Да!
26%
Ну нафиг
12%
Нинаю...
😁4🦄1
Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Статья: https://arxiv.org/abs/2510.22954
Код: https://github.com/liweijiang/artificial-hivemind
Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0
Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind

# TL;DR

ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model).

ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1468
👍257🔥3😁1👌1
1🔥63😁324🤮4👍1
Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.

Мультипликативные взаимодействия рулят, гейтированные функции активации тоже.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin (Qwen Team)
Статья: https://arxiv.org/abs/2505.06708, https://openreview.net/forum?id=1b7whO4SfY
Код: https://github.com/qiuzh20/gated_attention
Модель: https://huggingface.co/collections/Qwen/qwen3-next
Ревью: https://arxiviq.substack.com/p/neurips-2025-gated-attention-for

# TL;DR

Что сделали: Авторы представляют Gated Attention — механизм, добавляющий обучаемый зависимый от входа сигмоидный гейт сразу после выхода Scaled Dot-Product Attention (SDPA). Модулируя выход Y гейтом σ(XW_θ), метод вносит поэлементную разреженность и нелинейность перед финальной проекцией.

Зачем это нужно: Это простое архитектурное изменение даёт улучшенную стабильность при обучении больших моделей (убирает выбросы лосса) и стабильно улучшает перплексию на 15B MoE и 1.7B dense моделях. Главное — это механистически устраняет феномен "Attention Sink" и "Massive Activations" без всяких эвристических костылей типа "sink tokens", значительно улучшая экстраполяцию на длинный контекст.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1481
👍31
👍35🔥197❤‍🔥2
Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach
Статья: https://openreview.net/forum?id=s0JVsx3bx1
Код: https://wang-kevin3290.github.io/scaling-crl/
Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks

# TL;DR

ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным "обвесом": Residual connections, LayerNorm и активациями Swish.

ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1488
🔥16
Интересный результат про скейлинг по размеру батча
Крепитесь! Скоро наиграюсь 😁
😁100🤮12👍107
Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard
Статья: https://openreview.net/forum?id=BSZqpqgqM0, https://arxiv.org/abs/2505.17638
Код: https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
Ревью: https://arxiviq.substack.com/p/neurips-2025-why-diffusion-models

# TL;DR

ЧТО сделали: Авторы провели теоретический и эмпирический анализ динамики обучения score-based диффузионных моделей. Понимая, что модели в конечном итоге могут переобучиться, исследователи выделили два различных временных масштаба: tau_gen, когда модель учится генерировать валидные сэмплы, и tau_mem, когда она начинает запоминать конкретные примеры из обучения. Работа получила Best Paper Award на NeurIPS 2025.

ПОЧЕМУ это важно: Статья разрешает парадокс: почему перепараметризованные диффузионные модели обладают хорошей обобщающей способностью, хотя имеют ёмкость для идеального запоминания обучающих данных. Доказав, что время начала запоминания tau_mem растёт линейно с размером датасета n, а время обучения генерации tau_gen остаётся константой, авторы утверждают: "ранняя остановка" (early stopping) — это не просто эвристика, а структурная необходимость, обусловленная неявной динамической регуляризацией. Это объясняет, почему увеличение датасетов расширяет "безопасное окно" для обучения, позволяя огромным моделям надёжно обобщать данные.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1504
👍6🤔3
👍23😁155👎2🤮2🥴1
Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на самом деле не находит ничего нового.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
Статья: https://arxiv.org/abs/2504.13837, https://openreview.net/forum?id=4OsgYD7em5
Код: https://limit-of-rlvr.github.io
Ревью: https://arxiviq.substack.com/p/neurips-2025-does-reinforcement-learning

# TL;DR

ЧТО сделали? В этой работе, прошедшей в финал (Best Paper Runner-Up) на NeurIPS 2025, авторы систематически исследовали границы возможностей рассуждающих моделей (reasoning models), обученных с помощью RLVR (Reinforcement Learning with Verifiable Rewards). Используя несмещённую метрику pass@k на задачах по математике, кодингу и визуальному мышлению, они сравнили базовые модели с их RL-версиями, чтобы выяснить: генерирует ли RLVR принципиально новые паттерны мышления или лишь усиливает существующие.

ПОЧЕМУ это важно? Результаты разрушают популярный миф о том, что RLVR позволяет моделям автономно открывать "сверхчеловеческие" стратегии подобно AlphaGo. Исследование показывает: RLVR радикально улучшает *эффективность сэмплирования* (правильные ответы выпадают чаще), но не расширяет фундаментальные границы возможностей модели. На больших значениях k базовые модели часто решают *больше* уникальных задач, чем их RL-версии, что говорит об ограниченности текущих методов RL прайорами предобучения.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1513
👍12🤔43