NEW BOT Телеграм, страница

Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.

https://news.1rj.ru/str/gonzo_ML_podcasts/906

Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).

gonzo_ML_podcasts

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…

❤12👍8🔥7

6.35K viewsedited 09:37

gonzo-обзоры ML статей

❤6👍1🔥1

5.74K views09:38

gonzo-обзоры ML статей

О хренах и пряниках

Anonymous Poll

Есть физический запрет на появление интеллекта в цифровой машине

56%

В будущем появятся искусственные сущности, умнее человека в широком наборе областей

14%

Это произойдёт на горизонте до 100 лет

❤5👍2🤣2🔥1

977 voters6.3K views10:23

gonzo-обзоры ML статей

Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)

https://news.1rj.ru/str/gonzo_ML_podcasts/924

gonzo_ML_podcasts

Больше мыслей, меньше задержек: новая парадигма рассуждений в LLM

Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…

👍7

6.79K views14:13

gonzo-обзоры ML статей

👍5

7.16K views14:13

gonzo-обзоры ML статей

Вышел новый State of AI report 2025!

https://www.stateof.ai/

Всегда достойно изучения.

www.stateof.ai

State of AI Report 2025

The State of AI Report analyses the most interesting developments in AI. Read and download here.

👍17🤨3👎2🤡1

7.17K views09:37

gonzo-обзоры ML статей

Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...

https://news.1rj.ru/str/gonzo_ML_podcasts/936

arXiv.org

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....

❤41👍15❤‍🔥4😭3🔥2

6.71K views15:44

gonzo-обзоры ML статей

Интересно, что параллельно с LLM/VLM Google продолжает совершенствовать модели для роботов, свежая — Gemini Robotics 1.5. Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе. Так и роботов скоро начнут продавать.

https://news.1rj.ru/str/gonzo_ML_podcasts/946

gonzo_ML_podcasts

Gemini Robotics 1.5: роботы, которые думают, прежде чем делать

Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…

❤21

5.46K views12:34

gonzo-обзоры ML статей

🔥3

5.21K views12:34

gonzo-обзоры ML статей

Дожили... Документ переполнился

😁29😢23🫡6

4.89K views22:44

gonzo-обзоры ML статей

🤯43😁2❤1

4.92K views22:44

gonzo-обзоры ML статей

Hierarchical Reasoning Model
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM

Иерархического лонгрида вам на выходные!

Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.

Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.

Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).

Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.

🏗 Структура HRM

В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:

1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.

Динамика модели разворачивается в течение N высокоуровневых циклов, каждый из которых состоит из T низкоуровневых временных шагов. L-модуль обновляется на каждом шаге, и его состояние зависит от H-модуля, который остаётся неизменным на протяжении всего цикла. H-модуль обновляется только один раз за цикл, используя конечное состояние L-модуля.

- Иерархическая сходимость

Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.

Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины NT.

🔥13❤9🤔2

5.71K views12:23

gonzo-обзоры ML статей

- Приближённый градиент

Ключевое нововведение HRM — это способность эффективно обучать такие глубокие рекуррентные процессы. Модель обходит стороной ресурсоёмкое по памяти и биологически неправдоподобное обратное распространение ошибки во времени (Backpropagation Through Time, BPTT), которое требует O(T) памяти. Вместо этого она использует одношаговую аппроксимацию градиента, теоретически обоснованную в Deep Equilibrium Models (DEQ, https://arxiv.org/abs/1909.01377).

Этот подход использует теорему о неявной функции (Implicit Function Theorem, IFT), которая позволяет вычислить градиент неподвижной точки, не разворачивая вычисления. Аппроксимируя обратную матрицу Якоби (I - J_F)⁻¹ единичной матрицей I, модель может вычислять градиенты с постоянным расходом памяти O(1). По сути, это упрощение предполагает, что каждый рекуррентный шаг является стабильным уточнением, позволяя модели вычислять градиент путём обратного распространения ошибки только через самый последний вычислительный шаг, а не разворачивая всю историю.

В итоге градиент от выхода ко входу течёт через финальное состояние H-модуля в финальное состояние L-модуля и затем уже на вход. Сходу кажется, что мы много теряем, не пропуская градиент через все финальные состояния L и соответствующие им H, но может в следующей версии.

- Deep supervision

Для дальнейшей стабилизации обучения в HRM используется глубокий супервижн (deep supervision), вдохновлённый принципом, что нейронные осцилляции регулируют обучение в мозге. Может я не до конца понял идею, но мне кажется само наличие H и L модулей уже прямая отсылка к динамике, разворачивающейся на разных частотах, со всеми этими альфа, бета, тета ритмами. Но с другой стороны этот супервижн можно рассматривать как неявный модуль ещё более высокого уровня, чем H, я бы назвал его S.

Для каждого сэмпла (x,y) делается множество forward pass HRM, каждый из которых называется сегментом. В конце каждого из них вычисляется лосс и обновляются параметры. Важно, что скрытое состояние отсоединяется от вычислительного графа перед передачей в следующий сегмент, что действует одновременно как регуляризатор и эффективный обучающий сигнал. То есть градиенты из сегмента m+1 не влияют на сегмент m. Это сильно напоминает подход с recycling в AlphaFold 2 (https://news.1rj.ru/str/gonzo_ML/649), где 3D структура белка с выхода системы отправлялась снова на вход на последующее улучшение.

Количество сегментов определяется динамически через ACT.

- Adaptive computational time (ACT)

Это вообще моя любимая тема, про ACT я писал давно и много (https://news.1rj.ru/str/gonzo_ML/71).

Вдохновляясь способностью мозга переключаться между быстрым, автоматическим мышлением («Система 1») и медленным, обдуманным («Система 2»), HRM интегрирует ACT. Алгоритм Q-learning решает, «остановиться» или «продолжить» вычисления после каждого сегмента, основываясь на состоянии H-модуля.

Количество сегментов с вероятностью ε ограничивается сверху M_max (гиперпараметр) и снизу M_min (случайная величина полученная равномерным сэмплингом из множества {2, …, M_max}, и с вероятностью 1−ε устанавливается в 1. Остановка происходит когда превысили M_max или когда Q-значение для остановки превысило Q для продолжения и мы уже превысили M_min.

Общая функция потерь объединяет стандартный лосс для задачи sequence-to-sequence с лоссом Q-обучения, позволяя модели динамически распределять вычислительные ресурсы. В целом ACT процесс позволяет достигать качества сравнимого с фиксированным прогоном M_max сегментов, тратя заметно меньше вычислительных ресурсов.

Для inference-time scaling достаточно установить повыше M_max без какого-либо обучения

Другой недавний пример использования ACT в рекурсиях -- работа про Mixture-of-Recursions (MoR, https://news.1rj.ru/str/gonzo_ML_podcasts/489)

- Имплементация

❤9👍9🔥4🥰1

2.81K views12:23

About

Blog

Apps

Platform