NEW BOT Телеграм, страница

Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.

https://news.1rj.ru/str/gonzo_ML_podcasts/906

Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).

gonzo_ML_podcasts

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…

❤12👍8🔥7

6.35K viewsedited 09:37

gonzo-обзоры ML статей

❤6👍1🔥1

5.74K views09:38

gonzo-обзоры ML статей

О хренах и пряниках

Anonymous Poll

Есть физический запрет на появление интеллекта в цифровой машине

56%

В будущем появятся искусственные сущности, умнее человека в широком наборе областей

14%

Это произойдёт на горизонте до 100 лет

❤5👍2🤣2🔥1

977 voters6.3K views10:23

gonzo-обзоры ML статей

Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)

https://news.1rj.ru/str/gonzo_ML_podcasts/924

gonzo_ML_podcasts

Больше мыслей, меньше задержек: новая парадигма рассуждений в LLM

Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…

👍7

6.79K views14:13

gonzo-обзоры ML статей

👍5

7.16K views14:13

gonzo-обзоры ML статей

Вышел новый State of AI report 2025!

https://www.stateof.ai/

Всегда достойно изучения.

www.stateof.ai

State of AI Report 2025

The State of AI Report analyses the most interesting developments in AI. Read and download here.

👍17🤨3👎2🤡1

7.18K views09:37

gonzo-обзоры ML статей

Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...

https://news.1rj.ru/str/gonzo_ML_podcasts/936

arXiv.org

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....

❤41👍15❤‍🔥4😭3🔥2

6.71K views15:44

gonzo-обзоры ML статей

Интересно, что параллельно с LLM/VLM Google продолжает совершенствовать модели для роботов, свежая — Gemini Robotics 1.5. Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе. Так и роботов скоро начнут продавать.

https://news.1rj.ru/str/gonzo_ML_podcasts/946

gonzo_ML_podcasts

Gemini Robotics 1.5: роботы, которые думают, прежде чем делать

Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper: ht…

❤21

5.46K views12:34

gonzo-обзоры ML статей

🔥3

5.21K views12:34

gonzo-обзоры ML статей

Дожили... Документ переполнился

😁29😢23🫡6

4.89K views22:44

gonzo-обзоры ML статей

🤯43😁2❤1

4.92K views22:44

gonzo-обзоры ML статей

Hierarchical Reasoning Model
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM

Иерархического лонгрида вам на выходные!

Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.

Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.

Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).

Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.

🏗 Структура HRM

В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:

1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.

Динамика модели разворачивается в течение N высокоуровневых циклов, каждый из которых состоит из T низкоуровневых временных шагов. L-модуль обновляется на каждом шаге, и его состояние зависит от H-модуля, который остаётся неизменным на протяжении всего цикла. H-модуль обновляется только один раз за цикл, используя конечное состояние L-модуля.

- Иерархическая сходимость

Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.

Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины NT.

🔥13❤9🤔2

5.72K views12:23

About

Blog

Apps

Platform