gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.2K subscribers
2.89K photos
2 videos
3 files
1.43K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Интересное копание внутри сетей.

Мозг и трансформеры: анатомия синергетического ядра LLM

A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
Pedro Urbina-Rodriguez, Zafeirios Fountas, Fernando E. Rosas, Jun Wang, Andrea I. Luppi, Haitham Bou-Ammar, Murray Shanahan, Pedro A. M. Mediano
Статья: https://arxiv.org/abs/2601.06851
Ревью: https://arxiviq.substack.com/p/a-brain-like-synergistic-core-in
Код: https://github.com/Imperial-MIND-lab/integrated-info-decomp

# TL;DR

ЧТО сделали: Авторы применили метод декомпозиции интегрированной информации (ΦID) для анализа потоков данных внутри LLM, рассматривая головы внимания и экспертов как узлы обработки. Обнаружили, что в средних слоях моделей спонтанно формируется «синергетическое ядро» — зона, где интеграция информации превышает сумму её частей, тогда как ранние и поздние слои остаются преимущественно избыточными (redundant).

ПОЧЕМУ это важно: Такая топология зеркально отражает структуру человеческого мозга с его «синергетическим ядром», намекая на общие эволюционные принципы биологического и искусственного интеллекта. Практическая ценность: применение RL-файнтюнинга (RLFT) прицельно к этому ядру даёт значительно больший прирост в задачах на рассуждение (MATH benchmark), чем обучение всего подряд, что открывает путь к эффективному сжатию и тренировке моделей.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2159
🔥23
Forwarded from gonzo_ML_podcasts
🔥7😁3🥴3
Новая работа с Лекуном и джепой. Теперь для Latent Action Models

Learning Latent Action World Models In The Wild
Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat
Статья: https://arxiv.org/abs/2601.05230
Ревью: https://arxiviq.substack.com/p/learning-latent-action-world-models

# TL;DR

ЧТО сделали: Исследователи успешно обучили модели скрытых действий (Latent Action Models, LAMs) на огромном массиве неразмеченного видео in-the-wild (YouTube-Temporal-1B). Главный инсайт — непрерывные (continuous) латентные пространства с грамотной регуляризацией (разреженность или шум) работают значительно лучше, чем популярная ранее векторная квантизация (VQ), использовавшаяся в моделях вроде Genie (https://arxiv.org/abs/2402.15391).

ПОЧЕМУ это важно: Работа устраняет зависимость от гигантских размеченных датасетов или узких симуляций. Авторы показали, что можно обучить легкий «контроллер», который переводит реальные действия робота в латентные действия, выученные моделью исключительно по роликам с YouTube. Это позволяет планировать задачи для реальных роботов (DROID, RECON) с качеством, сравнимым с обучением на ground-truth данных, фактически превращая интернет в бесконечный источник знаний о физике для робототехники.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2168
1🔥255
Очень классная работа, мне нравится подход. Развитие идей десятков и сотен предыдущих работ и продолжение линейки: Transformer-XL, Compressive Transformer, RMT, LCM. Я бы даже сказал, что это LCM 2.0 (Large Concept Model).

В отличие от обычного LCM, который работал над предложениями, но не совсем end-to-end, используя внешние SONAR энкодеры и декодеры для предложений, Thought Gestalt (TG) работает на двух уровнях. На внешнем уровне он пользуется последовательностью гештальтов-предложений, генерируемых автоматом через дифференцируемую память, а на внутреннем он генерит токен-за-токеном как обычный трансформер, но используя кросс-аттеншн на память гештальтов.

Это мне кажется очень правильный подход. Ждём развития!

Modeling Language as a Sequence of Thoughts
Nasim Borazjanizadeh, James L. McClelland
Статья: https://arxiv.org/abs/2512.25026
Ревью: https://arxiviq.substack.com/p/modeling-language-as-a-sequence-of

# TL;DR

ЧТО сделали: Авторы представили модель Thought Gestalt (TG) — архитектуру рекуррентного трансформера, который обрабатывает текст не сплошным потоком токенов, а предложение за предложением. Вместо хранения полной истории прошлых токенов (как в классическом KV-кэше), TG сжимает каждое обработанное предложение в единое векторное представление — «гештальт» — и сохраняет его в дифференцируемой памяти. Ключевая фишка: модель обучается end-to-end, то есть градиенты от предсказания будущих токенов текут назад через память, оптимизируя параметры, которые создали представления прошлых предложений.

ПОЧЕМУ это важно: Подход бросает вызов доминированию статического контекстного окна, показывая, что рекуррентность на уровне событий может быть эффективнее по данным, чем простое внимание к токенам. Авторы показывают, что TG обходит GPT-2 в scaling laws (требуя на ~5-8% меньше данных для той же перплексии) и значительно смягчает «Проклятие обратимости» (Reversal Curse, https://arxiv.org/abs/2309.12288) — ситуацию, когда модель выучила A -> B, но не может вывести B -> A. Это намекает на то, что сжатие контекста в латентные «мысли» создаёт более надёжные семантические репрезентации, чем поверхностная статистика токенов.

Открыть гештальт: https://news.1rj.ru/str/gonzo_ML_podcasts/2181
🔥136👍4👎1👀1
Forwarded from gonzo_ML_podcasts
😁9🔥5
А Кокос-то (разбирали тут) не думает! А теперь прослушайте пение дрозда.

Do Latent Tokens Think? A Causal and Adversarial Analysis of Chain-of-Continuous-Thought
Yuyi Zhang, Boyu Tang, Tianjie Ju, Sufeng Duan, Gongshen Liu
Статья: https://arxiv.org/abs/2512.21711
Ревью: https://arxiviq.substack.com/p/do-latent-tokens-think-a-causal-and

# TL;DR

ЧТО сделали: Авторы жестко протестировали парадигму "Chain-of-Continuous-Thought" (COCONUT), в которой явные токены рассуждений заменяются на скрытые (латентные) вектора. С помощью каузальных интервенций (causal steering) и состязательных датасетов исследователи проверили, происходит ли в этих векторах реальный процесс мышления или модель просто имитирует его.

ПОЧЕМУ это важно: Сейчас ведущие лаборатории пытаются интернализировать "System 2" рассуждения, чтобы сэкономить токены и ускорить вычисления (пример — COCONUT https://news.1rj.ru/str/gonzo_ML/3567). Критически важно понимать, кодируют ли эти сжатые состояния смысл или служат просто "вычислительной заглушкой". Работа доказывает, что текущие методы непрерывного мышления работают как механизм "псевдо-рассуждений", крайне уязвимый к обучению на шорткатах (shortcut learning), что ставит под вопрос надежность таких архитектур.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2192
🔥6👌21
Forwarded from gonzo_ML_podcasts
😁7🤡2
Forwarded from gonzo_ML_podcasts
😁12👌21🤡1
Для тех, кто ещё не понял, что происходит
👍26😁23🤯10🤡3
Может, паттерн-матчинг — это хорошо?

The unreasonable effectiveness of pattern matching

Gary Lupyan, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2601.11432
Ревью: https://arxiviq.substack.com/p/the-unreasonable-effectiveness-of

# TL;DR

ЧТО сделали:
Авторы исследовали способность LLM восстанавливать семантический смысл из текста в стиле «Бармаглота» (Jabberwocky) — отрывков, где значимые слова заменены на бессмысленный набор букв, но сохранён синтаксис (например, «He dwushed a ghanc zawk»). Показано, что модели уровня Gemini и ChatGPT способны переводить эту абракадабру обратно в исходный текст или правдоподобные альтернативы, а также играть в текстовые квесты на выдуманном языке, опираясь исключительно на структурные паттерны.

ПОЧЕМУ это важно:
Работа бросает вызов редукционистскому взгляду на LLM как на «стохастических попугаев» или «размытые JPEG-картинки интернета». Исследование утверждает, что высокоуровневое понимание — это эмерджентное свойство сложного сопоставления паттернов (pattern matching). Механизм, который модели используют для «устранения размытости» (de-blurring) в бессмысленном тексте, фундаментально схож с человеческим мышлением, которое опирается на удовлетворение ограничений (constraint satisfaction), а не на формальную булеву логику.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2202
🔥94🤔1
Forwarded from gonzo_ML_podcasts
👏6🤮2