NEW BOT Телеграм, страница

gonzo-обзоры ML статей

💀 Исторический контекст

Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое.

- Neural History Compressor (Шмидхубер, 1991-1992)

Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил "collapsed" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM.

- Clockwork RNN (Koutník et al., 2014)

Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей "тактовой частоте" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход.

- Fast Weights (Хинтон, 1987/2016)

Джеффри Хинтон предложил концепцию "быстрых весов" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций.

Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах.

- Другие связанные работы

* Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию
* Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже
* здесь ещё могло бы быть много других работ

Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло.

Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу "Less is More: Recursive Reasoning with Tiny Networks" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей.

arXiv.org

Hierarchical Reasoning Model

Reasoning, the process of devising and executing complex goal-oriented action sequences, remains a critical challenge in AI. Current large language models (LLMs) primarily employ Chain-of-Thought...

❤17🔥13😁2

2.54K viewsedited 12:23

gonzo-обзоры ML статей

2.48K views12:23

gonzo-обзоры ML статей

2.42K views12:24

gonzo-обзоры ML статей

2.47K views12:24

gonzo-обзоры ML статей

2.73K views12:25

gonzo-обзоры ML статей

2.94K views12:25

gonzo-обзоры ML статей

3.32K views12:26

gonzo-обзоры ML статей

3.87K views12:27

gonzo-обзоры ML статей

3.98K views12:27

gonzo-обзоры ML статей

3.75K views12:27

gonzo-обзоры ML статей

3.83K views12:28

gonzo-обзоры ML статей

4.76K views12:29

gonzo-обзоры ML статей

5.01K views12:30

gonzo-обзоры ML статей

5.06K views12:30

gonzo-обзоры ML статей

4.4K views12:30

gonzo-обзоры ML статей

4.29K views12:31

gonzo-обзоры ML статей

4.33K views12:31

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

4.57K views12:32

❤16🔥1

gonzo-обзоры ML статей

Если вдруг вы пропустили, пара полезных ресурсов про Agentic AI

1. "Agentic AI" course by Andrew Ng
https://www.deeplearning.ai/courses/agentic-ai/

2. "Agentic Design Patterns" book by Antonio Gulli
https://docs.google.com/document/d/1rsaK53T3Lg5KoGwvf8ukOUvbELRtH-V0LnOIFDxBryE/preview?tab=t.0

DeepLearning.AI - Learning Platform

Agentic AI

In this course taught by Andrew Ng, you'll build agentic AI systems that take action through iterative, multi-step workflows.

1❤16👍8🤡1

5.85K viewsedited 20:47

gonzo-обзоры ML статей

Mamba 3 анонимно проникает на ICLR 2026. Планирую разбор после TRM.

https://openreview.net/forum?id=HwCvaJOiCj

Mamba3 just silently dropped on ICLR🤯

A faster, longer-context, and more scalable LLM architecture than Transformers

A few years ago, some researchers started rethinking sequence modeling from a different angle. Instead of stacking more attention layers, they went back to an older idea : state-space models, systems that keep an internal state evolving over time. That became the foundation for Mamba.

The early versions were promising.

Mamba-1 used continuous-time dynamics with selective memory updates, so it could remember efficiently without the heavy cost of attention.

Mamba-2 went further and showed that state-space updates and attention are actually two sides of the same math, which made it run much faster on GPUs while keeping similar performance.

Now Mamba-3 feels like the design finally matured. It refines how the internal state evolves, how it remembers, and how it uses hardware. The main update lies in switching from a simple Euler step to a trapezoidal integration, which takes into account both the start and end of each time interval. That small change makes its memory smoother and more stable over long sequences. It also lets the hidden state move in the complex plane, which adds a kind of rhythmic, oscillating memory. Instead of just decaying over time, the model can now represent repeating or periodic patterns, the kind of structure language and music often have. And with a new multi-input-multi-output design, Mamba-3 can process several streams in parallel, making much better use of modern GPUs.

In practice, Mamba-3 opens up a lot of possibilities. Its ability to handle long sequences efficiently makes it a strong fit for tasks like long-document understanding, scientific time-series, or genome modeling: areas where Transformers struggle with context limits. Because it runs in linear time and keeps latency stable, it’s also well-suited for real-time applications like chat assistants, translation, and speech interfaces, where responsiveness matters more than raw scale. And its hardware-friendly design makes Mamba-3 could eventually power on-device or edge AI systems, running large models locally without depending on the cloud.

It’s the kind of architecture that quietly expands from large-context reasoning on servers to lightweight intelligence on everyday devices

https://x.com/JundeMorsenWu/status/1977664753011916859?t=xoorer9sscloa78ZjuvcsQ&s=19

openreview.net

Mamba-3: Improved Sequence Modeling using State Space Principles

The recent scaling of test-time compute for LLMs has restricted the practical deployment of models to those with strong capabilities that can generate high-quality outputs in an inference-efficient...

❤34🔥10👍5

6.09K viewsedited 07:21

gonzo-обзоры ML статей

Больше хороших референсных имплементаций!

https://github.com/karpathy/nanochat

This repo is a full-stack implementation of an LLM like ChatGPT in a single, clean, minimal, hackable, dependency-lite codebase. nanochat is designed to run on a single 8XH100 node via noscripts like speedrun.sh, that run the entire pipeline start to end. This includes tokenization, pretraining, finetuning, evaluation, inference, and web serving over a simple UI so that you can talk to your own LLM just like ChatGPT. nanochat will become the capstone project of the course LLM101n being developed by Eureka Labs.

GitHub

GitHub - karpathy/nanochat: The best ChatGPT that $100 can buy.

The best ChatGPT that $100 can buy. Contribute to karpathy/nanochat development by creating an account on GitHub.

🔥47❤15👍6👀1

6.1K views20:46

About

Blog

Apps

Platform