Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
Telegram
gonzo_ML_podcasts
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
❤12👍8🔥7
Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)
https://news.1rj.ru/str/gonzo_ML_podcasts/924
https://news.1rj.ru/str/gonzo_ML_podcasts/924
Telegram
gonzo_ML_podcasts
Больше мыслей, меньше задержек: новая парадигма рассуждений в LLM
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
👍7
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...
https://news.1rj.ru/str/gonzo_ML_podcasts/936
https://news.1rj.ru/str/gonzo_ML_podcasts/936
arXiv.org
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....
❤41👍15❤🔥4😭3🔥2
Интересно, что параллельно с LLM/VLM Google продолжает совершенствовать модели для роботов, свежая — Gemini Robotics 1.5. Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе. Так и роботов скоро начнут продавать.
https://news.1rj.ru/str/gonzo_ML_podcasts/946
https://news.1rj.ru/str/gonzo_ML_podcasts/946
Telegram
gonzo_ML_podcasts
Gemini Robotics 1.5: роботы, которые думают, прежде чем делать
Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…
Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…
❤21
Hierarchical Reasoning Model
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM
Иерархического лонгрида вам на выходные!
Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.
Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.
Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).
Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.
🏗 Структура HRM
В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:
1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.
Динамика модели разворачивается в течение
- Иерархическая сходимость
Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.
Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM
Иерархического лонгрида вам на выходные!
Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.
Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.
Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).
Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.
🏗 Структура HRM
В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:
1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.
Динамика модели разворачивается в течение
N высокоуровневых циклов, каждый из которых состоит из T низкоуровневых временных шагов. L-модуль обновляется на каждом шаге, и его состояние зависит от H-модуля, который остаётся неизменным на протяжении всего цикла. H-модуль обновляется только один раз за цикл, используя конечное состояние L-модуля.- Иерархическая сходимость
Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.
Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины
NT.🔥13❤9🤔2
- Приближённый градиент
Ключевое нововведение HRM — это способность эффективно обучать такие глубокие рекуррентные процессы. Модель обходит стороной ресурсоёмкое по памяти и биологически неправдоподобное обратное распространение ошибки во времени (Backpropagation Through Time, BPTT), которое требует O(T) памяти. Вместо этого она использует одношаговую аппроксимацию градиента, теоретически обоснованную в Deep Equilibrium Models (DEQ, https://arxiv.org/abs/1909.01377).
Этот подход использует теорему о неявной функции (Implicit Function Theorem, IFT), которая позволяет вычислить градиент неподвижной точки, не разворачивая вычисления. Аппроксимируя обратную матрицу Якоби (I - J_F)⁻¹ единичной матрицей I, модель может вычислять градиенты с постоянным расходом памяти O(1). По сути, это упрощение предполагает, что каждый рекуррентный шаг является стабильным уточнением, позволяя модели вычислять градиент путём обратного распространения ошибки только через самый последний вычислительный шаг, а не разворачивая всю историю.
В итоге градиент от выхода ко входу течёт через финальное состояние H-модуля в финальное состояние L-модуля и затем уже на вход. Сходу кажется, что мы много теряем, не пропуская градиент через все финальные состояния L и соответствующие им H, но может в следующей версии.
- Deep supervision
Для дальнейшей стабилизации обучения в HRM используется глубокий супервижн (deep supervision), вдохновлённый принципом, что нейронные осцилляции регулируют обучение в мозге. Может я не до конца понял идею, но мне кажется само наличие H и L модулей уже прямая отсылка к динамике, разворачивающейся на разных частотах, со всеми этими альфа, бета, тета ритмами. Но с другой стороны этот супервижн можно рассматривать как неявный модуль ещё более высокого уровня, чем H, я бы назвал его S.
Для каждого сэмпла (x,y) делается множество forward pass HRM, каждый из которых называется сегментом. В конце каждого из них вычисляется лосс и обновляются параметры. Важно, что скрытое состояние отсоединяется от вычислительного графа перед передачей в следующий сегмент, что действует одновременно как регуляризатор и эффективный обучающий сигнал. То есть градиенты из сегмента m+1 не влияют на сегмент m. Это сильно напоминает подход с recycling в AlphaFold 2 (https://news.1rj.ru/str/gonzo_ML/649), где 3D структура белка с выхода системы отправлялась снова на вход на последующее улучшение.
Количество сегментов определяется динамически через ACT.
- Adaptive computational time (ACT)
Это вообще моя любимая тема, про ACT я писал давно и много (https://news.1rj.ru/str/gonzo_ML/71).
Вдохновляясь способностью мозга переключаться между быстрым, автоматическим мышлением («Система 1») и медленным, обдуманным («Система 2»), HRM интегрирует ACT. Алгоритм Q-learning решает, «остановиться» или «продолжить» вычисления после каждого сегмента, основываясь на состоянии H-модуля.
Количество сегментов с вероятностью
Общая функция потерь объединяет стандартный лосс для задачи sequence-to-sequence с лоссом Q-обучения, позволяя модели динамически распределять вычислительные ресурсы. В целом ACT процесс позволяет достигать качества сравнимого с фиксированным прогоном M_max сегментов, тратя заметно меньше вычислительных ресурсов.
Для inference-time scaling достаточно установить повыше M_max без какого-либо обучения
Другой недавний пример использования ACT в рекурсиях -- работа про Mixture-of-Recursions (MoR, https://news.1rj.ru/str/gonzo_ML_podcasts/489)
- Имплементация
Ключевое нововведение HRM — это способность эффективно обучать такие глубокие рекуррентные процессы. Модель обходит стороной ресурсоёмкое по памяти и биологически неправдоподобное обратное распространение ошибки во времени (Backpropagation Through Time, BPTT), которое требует O(T) памяти. Вместо этого она использует одношаговую аппроксимацию градиента, теоретически обоснованную в Deep Equilibrium Models (DEQ, https://arxiv.org/abs/1909.01377).
Этот подход использует теорему о неявной функции (Implicit Function Theorem, IFT), которая позволяет вычислить градиент неподвижной точки, не разворачивая вычисления. Аппроксимируя обратную матрицу Якоби (I - J_F)⁻¹ единичной матрицей I, модель может вычислять градиенты с постоянным расходом памяти O(1). По сути, это упрощение предполагает, что каждый рекуррентный шаг является стабильным уточнением, позволяя модели вычислять градиент путём обратного распространения ошибки только через самый последний вычислительный шаг, а не разворачивая всю историю.
В итоге градиент от выхода ко входу течёт через финальное состояние H-модуля в финальное состояние L-модуля и затем уже на вход. Сходу кажется, что мы много теряем, не пропуская градиент через все финальные состояния L и соответствующие им H, но может в следующей версии.
- Deep supervision
Для дальнейшей стабилизации обучения в HRM используется глубокий супервижн (deep supervision), вдохновлённый принципом, что нейронные осцилляции регулируют обучение в мозге. Может я не до конца понял идею, но мне кажется само наличие H и L модулей уже прямая отсылка к динамике, разворачивающейся на разных частотах, со всеми этими альфа, бета, тета ритмами. Но с другой стороны этот супервижн можно рассматривать как неявный модуль ещё более высокого уровня, чем H, я бы назвал его S.
Для каждого сэмпла (x,y) делается множество forward pass HRM, каждый из которых называется сегментом. В конце каждого из них вычисляется лосс и обновляются параметры. Важно, что скрытое состояние отсоединяется от вычислительного графа перед передачей в следующий сегмент, что действует одновременно как регуляризатор и эффективный обучающий сигнал. То есть градиенты из сегмента m+1 не влияют на сегмент m. Это сильно напоминает подход с recycling в AlphaFold 2 (https://news.1rj.ru/str/gonzo_ML/649), где 3D структура белка с выхода системы отправлялась снова на вход на последующее улучшение.
Количество сегментов определяется динамически через ACT.
- Adaptive computational time (ACT)
Это вообще моя любимая тема, про ACT я писал давно и много (https://news.1rj.ru/str/gonzo_ML/71).
Вдохновляясь способностью мозга переключаться между быстрым, автоматическим мышлением («Система 1») и медленным, обдуманным («Система 2»), HRM интегрирует ACT. Алгоритм Q-learning решает, «остановиться» или «продолжить» вычисления после каждого сегмента, основываясь на состоянии H-модуля.
Количество сегментов с вероятностью
ε ограничивается сверху M_max (гиперпараметр) и снизу M_min (случайная величина полученная равномерным сэмплингом из множества {2, …, M_max}, и с вероятностью 1−ε устанавливается в 1. Остановка происходит когда превысили M_max или когда Q-значение для остановки превысило Q для продолжения и мы уже превысили M_min.Общая функция потерь объединяет стандартный лосс для задачи sequence-to-sequence с лоссом Q-обучения, позволяя модели динамически распределять вычислительные ресурсы. В целом ACT процесс позволяет достигать качества сравнимого с фиксированным прогоном M_max сегментов, тратя заметно меньше вычислительных ресурсов.
Для inference-time scaling достаточно установить повыше M_max без какого-либо обучения
Другой недавний пример использования ACT в рекурсиях -- работа про Mixture-of-Recursions (MoR, https://news.1rj.ru/str/gonzo_ML_podcasts/489)
- Имплементация
❤9👍9🔥4🥰1
Оба модуля, H и L, реализованы с использованием современных блоков трансформер-энкодера (привет, BERT!), включающих такие улучшения, как Rotary Positional Encoding (RoPE), Gated Linear Units (GLU) (https://arxiv.org/abs/2002.05202) и RMSNorm в Post-Norm архитектуре. На входе и выходе последовательности токенов длины
Модули комбинируются через простое поэлементное сложение, что легко поскольку их архитектуры идентичны. В будущем планируют более хитрые комбинации, например, с гейтингом.
Модель не является LLM, обученной на всём интернете (более того, она вообще не декодер, а энкодер), и обучается на конкретные задачи: ARC-AGI-1 и -2, Sudoku-Extreme размером 9x9 с особо сложными паззлами (всего 3.8M, из которых для обучения отобраны 1000 штук), Maze-Hard 30x30 (тоже по 1000 в трейне и тесте).
📊 Результаты
Результаты экспериментов впечатляют. Обученная с нуля всего на ~1000 примерах на задачу и имея лишь 27М параметров, HRM демонстрирует очень высокую производительность там, где гораздо более крупные модели терпят неудачу.
Для ARC-AGI было множество аугментаций с поворотами, сдвигами и т.п. тестовых примеров. Для судоку много перестановок. Для лабиринтов ничего не делалось.
В сложных символьных задачах, таких как Sudoku-Extreme и Maze-Hard, которые требуют обширного поиска и возврата, HRM достигает высокой точности в 55% и 74.5%. В то же время, state-of-the-art CoT-модели полностью проваливаются, набирая 0%, как и Direct pred — замена HRM на трансформер аналогичного размера с 8 слоями и обученный на аналогичных данных.
На бенчмарке ARC-AGI-1, тесте на общий подвижный интеллект, HRM достигает 40.3% точности, значительно превосходя более крупные CoT-модели, такие как o3-mini-high (34.5%) и Claude 3.7 (21.2%), а также Direct pred с 21%. На ARC-AGI-2 гордые 5%, но у o3-mini-high только 3%, у остальных ещё меньше, у Direct Pred 0%.
Эксперименты с обучением на полном датасете судоку (который 3.8M) показывают, что во-первых, увеличение глубины важно (рис.2) и скейлинг глубины трансформера при фиксированной ширине приводит к заметному улучшению, а увеличение ширины при фиксированной глубине вообще не помогает. Во-вторых, в то время как производительность стандартного а также рекуррентного (детали имплементации не понял) трансформера достигает плато с увеличением глубины, HRM эффективно использует свою рекуррентную глубину для решения сложных проблем и достигает почти 100%. Правда для HRM даны всего три точки, интересно как он себя в начале графика вёл бы.
Визуализации промежуточных шагов модели показывают адаптивные стратегии рассуждений. Для лабиринта это параллельное исследование нескольких путей и отсев заблокированных или неэффективных, затем создание предварительного варианта и его уточнение. В судоку это напоминает поиск в глубину с возвратом. Для задач ARC это инкрементальные добавления к доске и итеративное улучшение без бэктрекинга и напоминающее метод восхождения к вершине. То есть для разных задач выучивает разные стратегии.
🤯 Эмерджентная структура, похожая на мозг
Интересная секция статьи под названием Brain Correspondence. Возможно, самое глубокое открытие — это появление в обученной модели структуры, правдоподобной с точки зрения нейронауки, что служит подтверждением её основных принципов проектирования. Авторы вдохновлялись функцией мозга (иерархическая обработка на разных временных масштабах), и, что примечательно, обученная модель спонтанно выработала ключевую особенность физической структуры мозга (иерархию размерности представлений). Авторы проанализировали эффективную размерность скрытых состояний H- и L-модулей, используя коэффициент участия (Participation Ratio, PR), и получили следующие результаты:
* Высокоуровневый (H) модуль развивает высокоразмерное представление большой ёмкости (PR ≈ 89.95), которое масштабируется с разнообразием задач.
* Низкоуровневый (L) модуль поддерживает стабильное, низкоразмерное представление (PR ≈ 30.22).
l. Модули комбинируются через простое поэлементное сложение, что легко поскольку их архитектуры идентичны. В будущем планируют более хитрые комбинации, например, с гейтингом.
Модель не является LLM, обученной на всём интернете (более того, она вообще не декодер, а энкодер), и обучается на конкретные задачи: ARC-AGI-1 и -2, Sudoku-Extreme размером 9x9 с особо сложными паззлами (всего 3.8M, из которых для обучения отобраны 1000 штук), Maze-Hard 30x30 (тоже по 1000 в трейне и тесте).
📊 Результаты
Результаты экспериментов впечатляют. Обученная с нуля всего на ~1000 примерах на задачу и имея лишь 27М параметров, HRM демонстрирует очень высокую производительность там, где гораздо более крупные модели терпят неудачу.
Для ARC-AGI было множество аугментаций с поворотами, сдвигами и т.п. тестовых примеров. Для судоку много перестановок. Для лабиринтов ничего не делалось.
В сложных символьных задачах, таких как Sudoku-Extreme и Maze-Hard, которые требуют обширного поиска и возврата, HRM достигает высокой точности в 55% и 74.5%. В то же время, state-of-the-art CoT-модели полностью проваливаются, набирая 0%, как и Direct pred — замена HRM на трансформер аналогичного размера с 8 слоями и обученный на аналогичных данных.
На бенчмарке ARC-AGI-1, тесте на общий подвижный интеллект, HRM достигает 40.3% точности, значительно превосходя более крупные CoT-модели, такие как o3-mini-high (34.5%) и Claude 3.7 (21.2%), а также Direct pred с 21%. На ARC-AGI-2 гордые 5%, но у o3-mini-high только 3%, у остальных ещё меньше, у Direct Pred 0%.
Эксперименты с обучением на полном датасете судоку (который 3.8M) показывают, что во-первых, увеличение глубины важно (рис.2) и скейлинг глубины трансформера при фиксированной ширине приводит к заметному улучшению, а увеличение ширины при фиксированной глубине вообще не помогает. Во-вторых, в то время как производительность стандартного а также рекуррентного (детали имплементации не понял) трансформера достигает плато с увеличением глубины, HRM эффективно использует свою рекуррентную глубину для решения сложных проблем и достигает почти 100%. Правда для HRM даны всего три точки, интересно как он себя в начале графика вёл бы.
Визуализации промежуточных шагов модели показывают адаптивные стратегии рассуждений. Для лабиринта это параллельное исследование нескольких путей и отсев заблокированных или неэффективных, затем создание предварительного варианта и его уточнение. В судоку это напоминает поиск в глубину с возвратом. Для задач ARC это инкрементальные добавления к доске и итеративное улучшение без бэктрекинга и напоминающее метод восхождения к вершине. То есть для разных задач выучивает разные стратегии.
🤯 Эмерджентная структура, похожая на мозг
Интересная секция статьи под названием Brain Correspondence. Возможно, самое глубокое открытие — это появление в обученной модели структуры, правдоподобной с точки зрения нейронауки, что служит подтверждением её основных принципов проектирования. Авторы вдохновлялись функцией мозга (иерархическая обработка на разных временных масштабах), и, что примечательно, обученная модель спонтанно выработала ключевую особенность физической структуры мозга (иерархию размерности представлений). Авторы проанализировали эффективную размерность скрытых состояний H- и L-модулей, используя коэффициент участия (Participation Ratio, PR), и получили следующие результаты:
* Высокоуровневый (H) модуль развивает высокоразмерное представление большой ёмкости (PR ≈ 89.95), которое масштабируется с разнообразием задач.
* Низкоуровневый (L) модуль поддерживает стабильное, низкоразмерное представление (PR ≈ 30.22).
❤8🔥6
Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает организацию размерностей, наблюдаемую в коре млекопитающих, где ассоциативные области высшего порядка имеют более высокую размерность, чем первичные сенсорные области. Это предоставляет корреляционное свидетельство того, что HRM выучивает фундаментальный организационный принцип для гибких рассуждений общего назначения.
🧠 Пост-анализ от ARC-AGI
Организаторы конкурса проанализировали перформанс HRM (https://arcprize.org/blog/hrm-analysis) и проверили её на скрытой части своего датасета. Они подтвердили результат модели, на Semi-Private sets это 32% для ARC-AGI-1 (что по-прежнему круто для такой маленькой модели) и 2% на ARC-AGI-2.
Самая интересная часть в сделанных абляциях. Они таковы:
* Иерархичность с рекурсией не особо играет, трансформер такого же размера при прочих неизменных архитектурных факторах (но компьюта HRM жрёт всё же больше, что может влиять) даёт качество в районе +/-5%, особенно если делать только один цикл (сегмент). То есть дело не в архитектуре как таковой. Это не совсем понятно, почему Direct pred тогда имел разницу 2x?
* Outer-loop refinement process (тот самый Deep supervision с ACT и последовательным улучшением результата) добавляет очень много, особенно в training time. Особо большая разница между одним и двумя проходами, но в целом качество продолжает расти вплоть до 16 циклов. То есть Universal Transformer (https://news.1rj.ru/str/gonzo_ML/90) или ALBERT (https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) — нашё всё?
* Cross-task transfer ограничен, большая часть перформанса из запоминания решений специфических задач
* Аугментации в претрейне критичны, но их достаточно 300, а не 1000. Аугментации при инференсе мало добавляют.
Авторы анализа говорят, что это делает подход фундаментально близким к представленному в статье “Arc-agi without pretraining”, но в статье про HRM сказано, что указанный подход даёт столько же, сколько и Direct Pred бейзлайн. Так что может фундаментально и близко, но разница в качестве почти в два раза.
🤔 Ограничения и будущее
Авторы признают несколько ограничений. Одношаговый градиент является аппроксимацией, а доказательства причинной роли эмерджентной иерархии размерностей пока что корреляционные. Связь между модулями реализована как простое поэлементное сложение, которое можно было бы улучшить с помощью более сложных механизмов гейтирования. Будущая работа включает исследование каузальной необходимости emergent-иерархии и интеграцию иерархической памяти для обработки ещё более длинных контекстов.
🧠 Пост-анализ от ARC-AGI
Организаторы конкурса проанализировали перформанс HRM (https://arcprize.org/blog/hrm-analysis) и проверили её на скрытой части своего датасета. Они подтвердили результат модели, на Semi-Private sets это 32% для ARC-AGI-1 (что по-прежнему круто для такой маленькой модели) и 2% на ARC-AGI-2.
Самая интересная часть в сделанных абляциях. Они таковы:
* Иерархичность с рекурсией не особо играет, трансформер такого же размера при прочих неизменных архитектурных факторах (но компьюта HRM жрёт всё же больше, что может влиять) даёт качество в районе +/-5%, особенно если делать только один цикл (сегмент). То есть дело не в архитектуре как таковой. Это не совсем понятно, почему Direct pred тогда имел разницу 2x?
* Outer-loop refinement process (тот самый Deep supervision с ACT и последовательным улучшением результата) добавляет очень много, особенно в training time. Особо большая разница между одним и двумя проходами, но в целом качество продолжает расти вплоть до 16 циклов. То есть Universal Transformer (https://news.1rj.ru/str/gonzo_ML/90) или ALBERT (https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) — нашё всё?
* Cross-task transfer ограничен, большая часть перформанса из запоминания решений специфических задач
* Аугментации в претрейне критичны, но их достаточно 300, а не 1000. Аугментации при инференсе мало добавляют.
Авторы анализа говорят, что это делает подход фундаментально близким к представленному в статье “Arc-agi without pretraining”, но в статье про HRM сказано, что указанный подход даёт столько же, сколько и Direct Pred бейзлайн. Так что может фундаментально и близко, но разница в качестве почти в два раза.
🤔 Ограничения и будущее
Авторы признают несколько ограничений. Одношаговый градиент является аппроксимацией, а доказательства причинной роли эмерджентной иерархии размерностей пока что корреляционные. Связь между модулями реализована как простое поэлементное сложение, которое можно было бы улучшить с помощью более сложных механизмов гейтирования. Будущая работа включает исследование каузальной необходимости emergent-иерархии и интеграцию иерархической памяти для обработки ещё более длинных контекстов.
❤8👍6
💀 Исторический контекст
Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое.
- Neural History Compressor (Шмидхубер, 1991-1992)
Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил "collapsed" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM.
- Clockwork RNN (Koutník et al., 2014)
Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей "тактовой частоте" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход.
- Fast Weights (Хинтон, 1987/2016)
Джеффри Хинтон предложил концепцию "быстрых весов" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций.
Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах.
- Другие связанные работы
* Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию
* Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже
* здесь ещё могло бы быть много других работ
Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло.
Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу "Less is More: Recursive Reasoning with Tiny Networks" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей.
Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое.
- Neural History Compressor (Шмидхубер, 1991-1992)
Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил "collapsed" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM.
- Clockwork RNN (Koutník et al., 2014)
Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей "тактовой частоте" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход.
- Fast Weights (Хинтон, 1987/2016)
Джеффри Хинтон предложил концепцию "быстрых весов" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций.
Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах.
- Другие связанные работы
* Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию
* Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже
* здесь ещё могло бы быть много других работ
Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло.
Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу "Less is More: Recursive Reasoning with Tiny Networks" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей.
arXiv.org
Hierarchical Reasoning Model
Reasoning, the process of devising and executing complex goal-oriented action sequences, remains a critical challenge in AI. Current large language models (LLMs) primarily employ Chain-of-Thought...
❤17🔥13😁2