NEW BOT Телеграм, страница

5.19K views18:02

Обзор трансформеров с памятью.

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824

В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1233

arXiv.org

Memory-Augmented Transformers: A Systematic Review from...

Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they...

👍14❤2

5.91K views10:09

gonzo-обзоры ML статей

❤2

5.84K views10:09

gonzo-обзоры ML статей

Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей

👍18🤷‍♀7

6.65K views19:06

gonzo-обзоры ML статей

Всё ещё кипятите?

What Really Matters in Matrix-Whitening Optimizers?
Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine
Статья: https://arxiv.org/abs/2510.25000
Код: https://github.com/kvfrans/matrix-whitening
Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening

Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор.

Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1240

arXiv.org

What Really Matters in Matrix-Whitening Optimizers?

A range of recent optimizers have emerged that approximate the same "matrix-whitening" transformation in various ways. In this work, we systematically deconstruct such optimizers, aiming to...

👍22❤4🔥4

5.85K viewsedited 22:42

gonzo-обзоры ML статей

5.3K views22:42

gonzo-обзоры ML статей

Сначала рассматривали предобучение в контексте бесконечного компьюта (см. Pre-training under infinite compute, https://news.1rj.ru/str/gonzo_ML/4038), теперь инференс. И там, и тут, выводы близкие: в любой непонятной ситуации делай ансамблирование 😁

Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091
Review: https://arxiviq.substack.com/p/best-of-asymptotic-performance-of
Code: https://github.com/jkomiyama/BoInf-code-publish

В статье представлен теоретический фреймворк "Best-of-∞", определяющий асимптотический предел производительности для стратегии best-of-N (BoN) с голосованием по большинству. Чтобы приблизиться к этому пределу с конечными ресурсами, авторы предлагают два ключевых нововведения: 1) Адаптивный алгоритм сэмплинга, который использует байесовское моделирование (в частности, фактор Байеса), чтобы динамически решать, когда прекратить генерацию ответов, тем самым оптимизируя вычислительные затраты. 2) Метод создания оптимально взвешенных ансамблей из нескольких LLM, который формулирует задачу оптимизации весов в асимптотическом пределе как решаемую задачу смешанного целочисленного линейного программирования (MILP).

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1251

gonzo_ML_podcasts

Best-of-Infinity: Принципиальный подход к максимизации производительности LLM во время инференса

Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091…

👍4🤔3❤1

5.47K viewsedited 17:43

gonzo-обзоры ML статей

🔥2❤1

4.55K views17:44

gonzo-обзоры ML статей

Классно, когда на Arxiv публикуют sci-fi.

Была летом практическая работа про Context Engineering ("A Survey of Context Engineering for Large Language Models", https://arxiv.org/abs/2507.13334, ревью) на 166 страниц с описанием всех актуальных на тот момент практик. Теперь прилетела работа футуристическая ("Context Engineering 2.0: The Context of Context Engineering", https://arxiv.org/abs/2510.26493, ревью). Эта на скромные 28 страниц, зато какие!

В этой статье «инженерия контекста» рассматривается не как недавний тренд эпохи LLM, а как давно развивающаяся дисциплина с более чем двадцатилетней историей. Авторы предлагают систематическую теоретическую основу, определяя эту практику как процесс снижения энтропии — преобразования высокоэнтропийных человеческих намерений в низкоэнтропийные, понятные машине форматы. Они вводят новую четырёхэтапную эволюционную модель (от Context Engineering 1.0 до 4.0), которая соотносит развитие дисциплины с ростом интеллекта машин — от примитивных вычислений до гипотетического сверхразумного ИИ. Эта структура организует существующие практики по трём основным направлениям: сбор, управление и использование контекста, предлагая всеобъемлющую таксономию паттернов проектирования для создания сложных ИИ-агентов.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1262

gonzo_ML_podcasts

За пределами промптинга: история и будущее инженерии контекста

Название: Context Engineering 2.0: The Context of Context Engineering
Авторы: Qishuo Hua, Lyumanshan Ye, Dayuan Fu, Yang Xiao, Xiaojie Cai, Yunze Wu, Jifan Lin, Junfei Wang, Pengfei Liu
Статья:…

😁15⚡8👌3❤2🤡2👍1👏1

5.48K viewsedited 18:21

gonzo-обзоры ML статей

👍3😁2

5.31K views18:22

gonzo-обзоры ML статей

🥰10👍3

5.73K views18:22

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5.14K views18:23

❤13

gonzo-обзоры ML статей

В целом постить анонсы появления разных новых моделей перестало быть особенно интересно, про это и так все напишут (тут ещё и Gemini 3.0 Pro и GPT-5.1 обещают), но удивительно, конечно, как сокращается разрыв между коммерческим close-source'ом и китайским опен-сорсом. Кто бы мог подумать несколько лет назад, что именно Китай будет лидить это направление.

Выход новой Kimi K2 Thinking некоторые (например, Томас Вулф) окрестили новым DeepSeek Moment.

Модель -- MoE на 1T общих параметров и 32B активных, контекст 256k, родная INT4 (QAT) с сохранением качества; Moonshot прямо заявляет про стабильный тул‑юзинг при 200–300 последовательных вызовов. Все бенчмарки для Thinking репортились в 4‑битной точности.

Если наконец есть возможность локально запускать модель уровня GPT‑5/Claude Sonnet 4.5/Grok‑4 -- это биг‑дил. В таблицах на карточке K2 Thinking она выигрывает у закрытых на части задач (HLE с инструментами, BrowseComp, некоторые кодовые бенчи), но, разумеется, кросс‑сравнения между командами и сетапами всегда надо читать с оговорками, да и хорошая работа на бенчмарке ещё не гарантирует такой же успех в личной жизни -- мы все тут слышали, что датасеты нынче разбавляют. Но тем не менее.

Весит K2 Thinking ~594 GB в формате compressed‑tensors (INT4). Оригинальная K2 (не Thinking) распространялась в FP8, поэтому чекпойнты получались заметно тяжелее.

Это всё ещё больше, чем позволяет типовое (или даже high end) домашнее железо. На практике уже есть успешные прогоны чего-то похожего: K2 в 4‑битном формате работает на двух Mac Studio с M3 Ultra по 512 GB (mlx‑lm + распределение между машинами) с «жить можно» скоростью; есть и локальные отчёты про ~30 ток/с на гибриде GPU+CPU через SGLang/ktransformers.

Это пока всё варианты не для простых смертных. Два Mac Studio -- это $25-30k. NVIDIA DGX Spark за ~$4k -- не вариант, слишком мало памяти. Какая-то рабочая станция с 1-2 TB памяти + GPU могут быть вариантом, но тоже я думаю будет сильно за десятку тысяч. Реально рабочая конфигурация -- что-то вроде 8× H200/B100, в соответствии с документацией:

“The smallest deployment unit for Kimi-K2-Thinking INT4 weights with 256k seqlen on mainstream H200 platform is a cluster with 8 GPUs with Tensor Parallel (TP)."

Там же есть любопытный вариант с KTransformers+LLaMA-Factory Fine-tuning:

“This achieves end-to-end LoRA SFT Throughput: 46.55 token/s on 2× NVIDIA 4090 + Intel 8488C with 1.97T RAM and 200G swap memory.”

В общем, пока скорее годится как потенциальная замена платных закрытых моделей внутри вашей компании, но не LLM для дома и локальных агентских экспериментов.

Может быть в этом месте более разумная альтернатива -- это какой-нибудь MiniMax‑M2, его вроде хвалят: MoE 230B total / 10B active, уже годно для Mac Studio M3 Ultra и с натяжкой для DGX Spark.

В любом случае, интересная движуха и огромный прогресс за несколько лет.

moonshotai.github.io

Kimi K2 Thinking

Kimi K2 Thinking, Moonshot's best open-source thinking model.

1👍37🤔7

5.99K views20:01

gonzo-обзоры ML статей

❤4

5.11K views20:02

gonzo-обзоры ML статей

Тут вышла свежая статья про AlphaEvolve с Теренсом Тао в соавторстве. В отличие от старой статьи разбирают большую кучу математических проблем.

Mathematical exploration and discovery at scale
Bogdan Georgiev, Javier Gómez-Serrano, Terence Tao, and Adam Zsolt Wagner
Статья: https://arxiv.org/abs/2511.02864
Ревью: https://arxiviq.substack.com/p/mathematical-exploration-and-discovery
Код: https://github.com/google-deepmind/alphaevolve_repository_of_problems

Что сделали?
В этой 80-страничной статье авторы проводят глубокую и всестороннюю валидацию AlphaEvolve — ИИ-системы, которая использует большую языковую модель (LLM) для управления эволюционным поиском новых математических конструкций (наш разбор AlphaEvolve тут: https://news.1rj.ru/str/gonzo_ML/3624). Существенно расширяя первоначальную публикацию о системе, авторы протестировали AlphaEvolve на большом наборе из 67 сложных задач из анализа, комбинаторики и геометрии. Система представляет собой значительный скачок по сравнению с предшественником, FunSearch, поскольку она позволяет эволюционировать целым кодовым базам, а не отдельным функциям. Авторы также подробно описывают новые режимы работы, такие как «обобщитель» (generalizer), который выводит универсальные формулы из частных примеров, и демонстрируют полный ИИ-пайплайн, объединяющий AlphaEvolve (для поиска закономерностей), Deep Think (для символических доказательств) и AlphaProof (для формальной верификации). Система автономно переоткрыла известные решения и во многих случаях нашла новые SOTA-конструкции и улучшенные численные границы — от увеличения числа поцелуев в 11-мерном пространстве до нахождения более плотной упаковки для 11 кубов.

Почему это важно?
Эта работа задаёт новую парадигму «конструктивной математики в больших масштабах», демонстрируя мощную и эффективную методологию для сотрудничества человека и ИИ. Статья, написанная командой, в которую входит лауреат Филдсовской премии Теренс Тао, показывает, как ИИ может систематически исследовать огромные пространства поиска для нахождения конкретных решений, дополняющих человеческую интуицию, — часто за часы, а не месяцы. В отличие от ИИ-систем, нацеленных на доказательство существующих теорем (например, для золотых медалей IMO), AlphaEvolve преуспевает в создании новых объектов и гипотез, которые и двигают математический прогресс. Она предлагает концепцию будущего, в котором ИИ не только проверяет человеческие знания, но и активно участвует в их создании, переходя от эмпирических наблюдений к формально верифицированным результатам.

Подробрее: https://news.1rj.ru/str/gonzo_ML_podcasts/1275

Среди наблюдений по ходу дела, вот это прикольное:

Более способные LLM имеют тенденцию производить более высококачественные решения. Но что, возможно, ещё удивительнее, они обнаружили, что использование исключительно самой мощной LLM не всегда было лучшей стратегией. Для некоторых задач чередование вызовов более дешёвых и менее способных моделей добавляло полезную вариативность и «наивную креативность» в эволюционный процесс, что приводило к более экономически эффективному поиску.

Также Гугл недавно анонсировал AI for Math Initiative:
https://blog.google/technology/google-deepmind/ai-for-math/

arXiv.org

Mathematical exploration and discovery at scale

AlphaEvolve is a generic evolutionary coding agent that combines the generative capabilities of LLMs with automated evaluation in an iterative evolutionary framework that proposes, tests, and...

❤20🔥12👍5

24.2K viewsedited 13:58

gonzo-обзоры ML статей

Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня.

Недавняя конференция ALife 2025 опубликовала свои материалы:
* Proceedings of the Artificial Life Conference 2025 (879 страниц)
* Companion Proceedings of the Artificial Life Conference 2025 (337 страниц)

Делитесь интересными находками в нашем чате.

2025.alife.org

ALIFE 2025, 6–10 Oct, Kyoto, Japan | Ciphers of Life

ALIFE 2025’s theme is 'Ciphers of Life', exploring the many ways that life encodes information, creates internal languages, and interacts in encrypted ways with its environment.

❤‍🔥11❤3

6.79K views23:13

gonzo-обзоры ML статей

5.05K views23:14

gonzo-обзоры ML статей

Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант Titans. Так что надо.

Titans: Learning to Memorize at Test Time
Authors: Ali Behrouz, Peilin Zhong, and Vahab Mirrokni
Paper: https://arxiv.org/abs/2501.00663
Review: https://arxiviq.substack.com/p/titans-learning-to-memorize-at-test

# TL;DR

Что сделали?
В статье представлена Titans — новое семейство гибридных архитектур, разработанных для преодоления ограничений современных последовательных моделей по длине контекста. Ключевая инновация — это новый модуль нейронной долговременной памяти (Long-Term Memory Module, LMM), глубокий нелинейный рекуррентный модуль, который работает как meta in-context learner. Это означает, что LMM не просто обрабатывает данные, а на лету адаптивно учится тому, как запоминать и забывать информацию, оптимизируя собственные веса прямо во время инференса. Это достигается за счёт метрики «удивления» на основе градиента с моментом (momentum), что позволяет отслеживать и сохранять важные события, а также с помощью адаптивного механизма забывания, который предотвращает переполнение памяти. Авторы предлагают три варианта интеграции LMM с кратковременным механизмом внимания (MAC, MAG, MAL).

Почему это важно?
Titans устраняют критический разрыв между трансформерами, которые обеспечивают высокую точность, но страдают от квадратичной вычислительной сложности, и современными линейными рекуррентными моделями, которые эффективны, но с трудом сжимают очень длинные контексты без потери информации. Сочетая мощную, динамически обновляемую долговременную память с точным кратковременным вниманием, Titans демонстрируют SOTA-производительность на разнообразных бенчмарках. Особенно примечательно, что они достигают беспрецедентной эффективности в задачах с экстремально длинным контекстом, масштабируясь до более чем 2 миллионов токенов и превосходя гораздо более крупные модели, вроде GPT-4, на бенчмарке BABILong. Эта работа вводит новую парадигму для создания последовательных моделей с надёжной, адаптивной памятью, открывая путь к системам ИИ, способным эффективно обрабатывать и рассуждать над огромными объёмами данных, сопоставимыми с целыми документами.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1300

research.google

Introducing Nested Learning: A new ML paradigm for continual learning

👍22🔥12❤9

5.61K views20:35

gonzo-обзоры ML статей

Вот и до Nested Learning, Hope, Titans 2.0 добрались.

Nested Learning: The Illusion of Deep Learning Architectures
Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni
Paper: https://abehrouz.github.io/files/NL.pdf
Blog: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
Review: https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep

# TL;DR

📝 Что сделано?
В статье представлено Nested Learning (NL, вложенное обучение) — новая теоретическая парадигма, которая переосмысливает модели машинного обучения и процедуры их обучения как интегрированную систему вложенных, многоуровневых оптимизационных задач. Каждый компонент в этой иерархии оперирует собственным «потоком контекста» — например, потоком выборок данных или градиентов — и имеет свою частоту обновления. Такой «white-box» взгляд показывает, что существующие методы глубокого обучения работают за счёт сжатия контекста. В рамках этой парадигмы авторы делают три основных вклада: (1) Deep Optimizers — концепция, которая интерпретирует оптимизаторы вроде SGD с моментом как обучаемые, многоуровневые модули памяти, сжимающие градиенты; (2) Continuum Memory System (CMS) — система, обобщающая краткосрочную и долгосрочную память в иерархию блоков памяти, обновляющихся в разных временных масштабах; и (3) HOPE (или Self-Modifying Titans) — новая самомодифицирующаяся архитектура для последовательностей, которая объединяет эти принципы и достигает передовых результатов.

🤔 Почему это важно?
Вложенное обучение предлагает принципиальное, вдохновлённое нейронаукой решение одной из самых больших проблем в ИИ — статичности больших языковых моделей (LLM). Вместо «иллюзии» простого нагромождения слоёв, NL предоставляет математическую основу для создания моделей, способных к непрерывному обучению, самосовершенствованию и рассуждениям в контексте (in-context reasoning) более высокого порядка. Эта работа смещает фокус с эвристического конструирования архитектур на целенаправленное проектирование систем памяти с несколькими временными масштабами. Итоговая архитектура HOPE демонстрирует превосходство над сильными бейзлайнами, такими как трансформеры и её предшественник Titans, указывая на будущее, в котором ИИ-системы станут более адаптивными, эффективными и смогут преодолеть «амнезию», присущую текущим моделям.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1317

👍20❤11🔥3

5.55K viewsedited 15:00

gonzo-обзоры ML статей

4.58K views15:01

gonzo-обзоры ML статей

Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
Authors: Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmiduber
Paper: https://arxiv.org/abs/2510.21614
Code: https://github.com/metauto-ai/HGM
Review: https://arxiviq.substack.com/p/huxley-godel-machine-human-level

# TL;DR

Что сделали?
В статье выявляют и решают проблему «несоответствия метапродуктивности и производительности» — критический изъян существующих самосовершенствующихся агентов для написания кода. Суть проблемы в том, что текущая производительность на бенчмарках плохо предсказывает долгосрочный потенциал для улучшений. Для решения авторы представляют Машину Хаксли-Гёделя (HGM) — алгоритм, аппроксимирующий теоретически оптимальную Машину Гёделя. Вместо того чтобы полагаться на оценку отдельных агентов, HGM руководствуется новой метрикой, основанной на анализе всей линии потомков — Метапродуктивностью клады (CMP). Эта метрика агрегирует производительность всего дерева потомков агента, чтобы лучше оценить его будущий потенциал. Такой подход сочетается с эффективной асинхронной стратегией древовидного поиска, которая отделяет процесс создания агентов от их оценки.

Почему это важно?
Эта работа знаменует собой смену парадигмы в проектировании автономных систем ИИ: переход от жадной, краткосрочной оптимизации к более строгому подходу, ориентированному на долгосрочный эволюционный потенциал. Метод не только эффективнее в поиске более качественных агентов, но и значительно экономичнее: он требует до 6,8 раз меньше CPU-часов, чем предыдущие SOTA-методы. Самое главное — агент, разработанный с помощью HGM, достиг производительности на уровне человека на бенчмарке SWE-bench Lite, сравнявшись с лучшими официально верифицированными результатами агентов, спроектированных людьми. Это демонстрирует новый перспективный путь к автоматизированному проектированию ИИ, способному создавать робастные, переносимые решения экспертного уровня.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1327

arXiv.org

Huxley-Gödel Machine: Human-Level Coding Agent Development by an...

Recent studies operationalize self-improvement through coding agents that edit their own codebases. They grow a tree of self-modifications through expansion strategies that favor higher software...

👍12🔥7👀3🤯1😱1

4.85K views15:15

About

Blog

Apps

Platform