Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
Telegram
gonzo_ML_podcasts
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
❤12👍8🔥7
Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)
https://news.1rj.ru/str/gonzo_ML_podcasts/924
https://news.1rj.ru/str/gonzo_ML_podcasts/924
Telegram
gonzo_ML_podcasts
Больше мыслей, меньше задержек: новая парадигма рассуждений в LLM
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
👍7
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...
https://news.1rj.ru/str/gonzo_ML_podcasts/936
https://news.1rj.ru/str/gonzo_ML_podcasts/936
arXiv.org
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....
❤41👍15❤🔥4😭3🔥2
Интересно, что параллельно с LLM/VLM Google продолжает совершенствовать модели для роботов, свежая — Gemini Robotics 1.5. Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе. Так и роботов скоро начнут продавать.
https://news.1rj.ru/str/gonzo_ML_podcasts/946
https://news.1rj.ru/str/gonzo_ML_podcasts/946
Telegram
gonzo_ML_podcasts
Gemini Robotics 1.5: роботы, которые думают, прежде чем делать
Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…
Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…
❤21
Hierarchical Reasoning Model
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM
Иерархического лонгрида вам на выходные!
Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.
Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.
Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).
Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.
🏗 Структура HRM
В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:
1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.
Динамика модели разворачивается в течение
- Иерархическая сходимость
Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.
Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM
Иерархического лонгрида вам на выходные!
Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.
Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.
Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).
Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.
🏗 Структура HRM
В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:
1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.
Динамика модели разворачивается в течение
N высокоуровневых циклов, каждый из которых состоит из T низкоуровневых временных шагов. L-модуль обновляется на каждом шаге, и его состояние зависит от H-модуля, который остаётся неизменным на протяжении всего цикла. H-модуль обновляется только один раз за цикл, используя конечное состояние L-модуля.- Иерархическая сходимость
Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.
Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины
NT.🔥13❤9🤔2