NEW BOT Телеграм, страница

gonzo-обзоры ML статей

4.96K views17:45

gonzo-обзоры ML статей

❤1🔥1

5.13K views17:45

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5.32K views17:46

gonzo-обзоры ML статей

Датасет для файнтюнинга агентности... из 78 примеров.

LIMI: Less is More for Agency
https://news.1rj.ru/str/gonzo_ML_podcasts/1083

🤯21❤10🤔6

5.24K viewsedited 22:09

gonzo-обзоры ML статей

Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
https://news.1rj.ru/str/gonzo_ML_podcasts/1093

gonzo_ML_podcasts

🧠 Мышление порциями: Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM

The Markovian Thinker
Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
Статья: http…

❤19👍10🔥6

5.71K views09:42

gonzo-обзоры ML статей

👍1

4.94K views09:42

gonzo-обзоры ML статей

Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1108

gonzo_ML_podcasts

За пределами замороженного мира: о хрупкости больших моделей с ризонингом в динамических средах

Title: Are Large Reasoning Models Interruptible?
Authors: Tsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
Paper:…

🤔7👍4🔥1😱1

5.16K views18:23

gonzo-обзоры ML статей

🫡6

5.13K views18:37

gonzo-обзоры ML статей

Всё дело в волшебных пузырьках!

Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера.

Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1118

gonzo_ML_podcasts

За пределами Chain-of-Thought: неконтролируемые параллельные рассуждения в латентном пространстве

Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
Houjun Liu, Shikhar Murty, Christopher D. Manning, Róbert Csordás
Статья: http…

🔥16❤4👍2🤔2

5.31K viewsedited 11:08

gonzo-обзоры ML статей

4.57K views11:08

gonzo-обзоры ML статей

Краткость — сестра

Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1127

gonzo_ML_podcasts

Адаптация LLM за минуты: нужен всего один шаг градиентного спуска

Title: Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Authors: Shiva Sreeram, Alaa Maalouf, Pratyusha Sharma, Daniela Rus
Paper: https://arxiv.o…

👍5🔥4❤2🤔1

5.36K views19:27

gonzo-обзоры ML статей

😁27👍1

4.81K views19:27

gonzo-обзоры ML статей

Extropic анонсировал своё новое железо

http://extropic.ai/writing/inside-x0-and-xtr-0

Мы писали про эту и другие интересные темы тут

Extropic

Inside X0 and XTR-0 | Extropic

Building thermodynamic computing hardware that is radically more energy efficient than GPUs.

🔥13🤡3

4.87K viewsedited 22:42

gonzo-обзоры ML статей

Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1136

gonzo_ML_podcasts

За гранью непрерывных оценок: как бинарное вознаграждение борется с галлюцинациями LLM, не жертвуя навыками

Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
Authors: Tong Chen, Akari Asai, Luke Zettlemoyer…

🔥11👍4😁2🫡2🤔1

5.68K viewsedited 12:28

gonzo-обзоры ML статей

❤2

5.46K views12:29

gonzo-обзоры ML статей

Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться "в воображении", внутри выученной модели мира. Мы упоминали эти модели неоднократно (https://news.1rj.ru/str/gonzo_ML/1791), и вообще World Models — одна из моих любимых тем (https://news.1rj.ru/str/gonzo_ML/3176).

Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.

В общем любопытная движуха.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1150

gonzo-обзоры ML статей

Learning to Model the World with Language
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
Статья: https://arxiv.org/abs/2308.01399
Сайт: https://dynalang.github.io/

Интересная работа из серии про World Models.…

👍14❤4🔥4

5.41K viewsedited 19:34

gonzo-обзоры ML статей

👍8🔥1

5.31K views19:34

gonzo-обзоры ML статей

Графовый LSTM подвезли, gLSTM.

Что сделано?
В статье пересматривается проблема "over-squashing" в графовых нейронных сетях (GNN), разделяя её на два различных режима отказа: низкую чувствительность (сбой распространения сигнала) и насыщение ёмкости хранения (информационное узкое место). Для решения второй проблемы авторы представляют gLSTM — новую архитектуру GNN, вдохновлённую моделью для последовательностей xLSTM. gLSTM дополняет представление каждого узла ассоциативной памятью (матричным скрытым состоянием), чтобы явно увеличить его возможности по хранению и извлечению информации. Они также предлагают новую синтетическую задачу, Neighbor Associative Recall (NAR), специально разработанную для выделения и измерения этого ограничения ёмкости в условиях неглубокого графа, что позволяет избежать мешающих факторов, связанных с глубокими архитектурами.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1170

gonzo_ML_podcasts

Не сигналом единым: gLSTM борется с over-squashing в GNN, наращивая память

Title: gLSTM: Mitigating Over-Squashing by Increasing Storage Capacity
Authors: Hugh Blayney, Álvaro Arroyo, Xiaowen Dong, Michael M. Bronstein
Paper: https://arxiv.org/abs/2510.08450…

❤8👍6🤔4

5.58K views13:48

gonzo-обзоры ML статей

🔥2

5.8K views13:48

gonzo-обзоры ML статей

Когда ты думал, что оно грокнуло, а оно, зараза, переобучилось 😹

😁71😭9👍5🎅1

5.58K views20:09

gonzo-обзоры ML статей

The Principles of Diffusion Models: From Origins to Advances
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models

Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1181

arXiv.org

The Principles of Diffusion Models

This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas....

🔥42👍4❤2

6.47K views17:43

About

Blog

Apps

Platform