gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.35K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Краткость — сестра

Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1127
👍5🔥42🤔1
Extropic анонсировал своё новое железо

http://extropic.ai/writing/inside-x0-and-xtr-0

Мы писали про эту и другие интересные темы тут
🔥13🤡3
Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1136
🔥11👍4😁2🫡2🤔1
Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться "в воображении", внутри выученной модели мира. Мы упоминали эти модели неоднократно (https://news.1rj.ru/str/gonzo_ML/1791), и вообще World Models — одна из моих любимых тем (https://news.1rj.ru/str/gonzo_ML/3176).

Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.

В общем любопытная движуха.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1150
👍144🔥4
Графовый LSTM подвезли, gLSTM.

Что сделано?
В статье пересматривается проблема "over-squashing" в графовых нейронных сетях (GNN), разделяя её на два различных режима отказа: низкую чувствительность (сбой распространения сигнала) и насыщение ёмкости хранения (информационное узкое место). Для решения второй проблемы авторы представляют gLSTM — новую архитектуру GNN, вдохновлённую моделью для последовательностей xLSTM. gLSTM дополняет представление каждого узла ассоциативной памятью (матричным скрытым состоянием), чтобы явно увеличить его возможности по хранению и извлечению информации. Они также предлагают новую синтетическую задачу, Neighbor Associative Recall (NAR), специально разработанную для выделения и измерения этого ограничения ёмкости в условиях неглубокого графа, что позволяет избежать мешающих факторов, связанных с глубокими архитектурами.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1170
8👍6🤔4
Когда ты думал, что оно грокнуло, а оно, зараза, переобучилось 😹
😁71😭9👍5🎅1
The Principles of Diffusion Models: From Origins to Advances
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon

Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models

Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1181
🔥42👍42
Kimi Linear: An Expressive, Efficient Attention Architecture
https://arxiv.org/abs/2510.26692

Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.

Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.

Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1196
13👍6🔥5
Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.

Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781

Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.

Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1213
👍73🤮2🔥1
Обзор трансформеров с памятью.

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures

Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824

В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1233
👍142
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
👍18🤷‍♀7