NEW BOT Телеграм, страница - 621168641

gonzo-обзоры ML статей

24K subscribers

2.75K photos

2 videos

3 files

1.36K links

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Download Telegram

About

Blog

Apps

Platform

gonzo-обзоры ML статей

24K subscribers

gonzo-обзоры ML статей

4.02K views23:37

gonzo-обзоры ML статей

🔥19🤣5

3.89K views23:37

gonzo-обзоры ML статей

Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно добавляем их к более глубоким слоям. ResNet -> StepsNet.

Step by Step Network
Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang
Статья: https://arxiv.org/abs/2511.14329
Ревью: https://arxiviq.substack.com/p/step-by-step-network

# TL;DR

ЧТО сделали? Авторы предложили StepsNet — новую макро-архитектуру, которая меняет подход к построению глубоких сетей. Вместо одновременной обработки всех входных каналов, StepsNet использует каскадную схему «шаг за шагом»: вход расщепляется, часть каналов обрабатывается сразу, а остальные постепенно вводятся в более глубокие слои.

ЗАЧЕМ это нужно? Это решает проблему «деградации шорткатов» (shortcut degradation), из-за которой в сверхглубоких сетях (сотни слоёв) сигнал тонет в шуме. Сохраняя «чистые» пути для сигнала в глубину и ломая привычный компромисс между шириной и глубиной, StepsNet позволяет масштабировать модели почти до 500 слоёв. При этом метрики на ImageNet и COCO растут, а количество параметров не увеличивается.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1452

Step by Step Network

Scaling up network depth is a fundamental pursuit in neural architecture design, as theory suggests that deeper models offer exponentially greater capability. Benefiting from the residual...

❤5🔥4👍1

4.27K views08:52

gonzo-обзоры ML статей

🔥2

4.03K views08:52

gonzo-обзоры ML статей

4.27K views08:52

gonzo-обзоры ML статей

Извинити )) [А Васе Ложкину отдельный респект]

2😁88🔥23🤩9❤7🤡3

4.54K viewsedited 08:52

gonzo-обзоры ML статей

Постить комиксы?

Anonymous Poll

Ну нафиг

😁4🦄1

982 voters4.05K views10:10

gonzo-обзоры ML статей

Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Статья: https://arxiv.org/abs/2510.22954
Код: https://github.com/liweijiang/artificial-hivemind
Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0
Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind

# TL;DR

ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model).

ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1468

Artificial Hivemind: The Open-Ended Homogeneity of Language Models...

Language models (LMs) often struggle to generate diverse, human-like creative content, raising concerns about the long-term homogenization of human thought through repeated exposure to similar...

👍25❤7🔥3😁1👌1

7.63K views18:02

gonzo-обзоры ML статей

👍1

4.35K views18:02

gonzo-обзоры ML статей

1🔥64😁33❤4🤮4👍1

4.7K views18:03

gonzo-обзоры ML статей

Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.

Мультипликативные взаимодействия рулят, гейтированные функции активации тоже.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin (Qwen Team)
Статья: https://arxiv.org/abs/2505.06708, https://openreview.net/forum?id=1b7whO4SfY
Код: https://github.com/qiuzh20/gated_attention
Модель: https://huggingface.co/collections/Qwen/qwen3-next
Ревью: https://arxiviq.substack.com/p/neurips-2025-gated-attention-for

# TL;DR

Что сделали: Авторы представляют Gated Attention — механизм, добавляющий обучаемый зависимый от входа сигмоидный гейт сразу после выхода Scaled Dot-Product Attention (SDPA). Модулируя выход Y гейтом σ(XW_θ), метод вносит поэлементную разреженность и нелинейность перед финальной проекцией.

Зачем это нужно: Это простое архитектурное изменение даёт улучшенную стабильность при обучении больших моделей (убирает выбросы лосса) и стабильно улучшает перплексию на 15B MoE и 1.7B dense моделях. Главное — это механистически устраняет феномен "Attention Sink" и "Massive Activations" без всяких эвристических костылей типа "sink tokens", значительно улучшая экстраполяцию на длинный контекст.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1481

Gated Attention for Large Language Models: Non-linearity,...

Gating mechanisms have been widely utilized, from early models like LSTMs and Highway Networks to recent state space models, linear attention, and also softmax attention. Yet, existing literature...

👍3❤1

4.35K views09:23

gonzo-обзоры ML статей

❤‍🔥2

3.84K views09:23

gonzo-обзоры ML статей

👍36🔥19❤7❤‍🔥2

4.14K views09:23

gonzo-обзоры ML статей

Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach
Статья: https://openreview.net/forum?id=s0JVsx3bx1
Код: https://wang-kevin3290.github.io/scaling-crl/
Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks

# TL;DR

ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным "обвесом": Residual connections, LayerNorm и активациями Swish.

ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1488

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can...

Scaling up self-supervised learning has driven breakthroughs in language and vision, yet comparable progress has remained elusive in reinforcement learning (RL). In this paper, we study building...

🔥16

4.3K views22:48

gonzo-обзоры ML статей

Интересный результат про скейлинг по размеру батча

3.76K views22:49

gonzo-обзоры ML статей

Крепитесь! Скоро наиграюсь 😁

😁102🤮12👍10❤7

4.14K views22:54

gonzo-обзоры ML статей

Красивое про размер транзистора

https://www.reddit.com/r/AICompanions/s/xrCXEf66qd

From the AICompanions community on Reddit: How small is a transistor on a modern processors?

Explore this post and more from the AICompanions community

🔥18

4.12K views23:42

gonzo-обзоры ML статей

Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard
Статья: https://openreview.net/forum?id=BSZqpqgqM0, https://arxiv.org/abs/2505.17638
Код: https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
Ревью: https://arxiviq.substack.com/p/neurips-2025-why-diffusion-models

# TL;DR

ЧТО сделали: Авторы провели теоретический и эмпирический анализ динамики обучения score-based диффузионных моделей. Понимая, что модели в конечном итоге могут переобучиться, исследователи выделили два различных временных масштаба: tau_gen, когда модель учится генерировать валидные сэмплы, и tau_mem, когда она начинает запоминать конкретные примеры из обучения. Работа получила Best Paper Award на NeurIPS 2025.

ПОЧЕМУ это важно: Статья разрешает парадокс: почему перепараметризованные диффузионные модели обладают хорошей обобщающей способностью, хотя имеют ёмкость для идеального запоминания обучающих данных. Доказав, что время начала запоминания tau_mem растёт линейно с размером датасета n, а время обучения генерации tau_gen остаётся константой, авторы утверждают: "ранняя остановка" (early stopping) — это не просто эвристика, а структурная необходимость, обусловленная неявной динамической регуляризацией. Это объясняет, почему увеличение датасетов расширяет "безопасное окно" для обучения, позволяя огромным моделям надёжно обобщать данные.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1504

Why Diffusion Models Don’t Memorize: The Role of Implicit...

Diffusion models have achieved remarkable success across a wide range of generative tasks. A key challenge is understanding the mechanisms that prevent their memorization of training data and allow...

👍6🤔3❤1

4.31K views12:32

gonzo-обзоры ML статей

👍2❤1

4.19K views12:32

gonzo-обзоры ML статей

👍23😁15❤5👎2🤮2🥴1

4.34K views12:32

gonzo-обзоры ML статей

Программировали ли вы (активно) на языке с указателям?

Anonymous Poll

да (указатели -- это классно!)

да (в гробу я видал[а] эти указатели)

нет (но знаю, что это такое)

нет (или не знаю, что это такое)

не знаю вообще ничего, но программировал[а]

это сложный философский вопрос

я вообще не программист[ка], отстаньте

❤‍🔥3❤2

1.44K voters4.35K views14:51