Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
https://news.1rj.ru/str/gonzo_ML_podcasts/906
Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://news.1rj.ru/str/gonzo_ML/3932).
Telegram
gonzo_ML_podcasts
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh…
❤12👍8🔥7
Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)
https://news.1rj.ru/str/gonzo_ML_podcasts/924
https://news.1rj.ru/str/gonzo_ML_podcasts/924
Telegram
gonzo_ML_podcasts
Больше мыслей, меньше задержек: новая парадигма рассуждений в LLM
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
Title: Rethinking Thinking Tokens: LLMs as Improvement Operators
Authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev…
👍7
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...
https://news.1rj.ru/str/gonzo_ML_podcasts/936
https://news.1rj.ru/str/gonzo_ML_podcasts/936
arXiv.org
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....
❤41👍15❤🔥4😭3🔥2