Интересное копание внутри сетей.
Мозг и трансформеры: анатомия синергетического ядра LLM
A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
Pedro Urbina-Rodriguez, Zafeirios Fountas, Fernando E. Rosas, Jun Wang, Andrea I. Luppi, Haitham Bou-Ammar, Murray Shanahan, Pedro A. M. Mediano
Статья: https://arxiv.org/abs/2601.06851
Ревью: https://arxiviq.substack.com/p/a-brain-like-synergistic-core-in
Код: https://github.com/Imperial-MIND-lab/integrated-info-decomp
# TL;DR
ЧТО сделали: Авторы применили метод декомпозиции интегрированной информации (
ПОЧЕМУ это важно: Такая топология зеркально отражает структуру человеческого мозга с его «синергетическим ядром», намекая на общие эволюционные принципы биологического и искусственного интеллекта. Практическая ценность: применение RL-файнтюнинга (RLFT) прицельно к этому ядру даёт значительно больший прирост в задачах на рассуждение (MATH benchmark), чем обучение всего подряд, что открывает путь к эффективному сжатию и тренировке моделей.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2159
Мозг и трансформеры: анатомия синергетического ядра LLM
A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
Pedro Urbina-Rodriguez, Zafeirios Fountas, Fernando E. Rosas, Jun Wang, Andrea I. Luppi, Haitham Bou-Ammar, Murray Shanahan, Pedro A. M. Mediano
Статья: https://arxiv.org/abs/2601.06851
Ревью: https://arxiviq.substack.com/p/a-brain-like-synergistic-core-in
Код: https://github.com/Imperial-MIND-lab/integrated-info-decomp
# TL;DR
ЧТО сделали: Авторы применили метод декомпозиции интегрированной информации (
ΦID) для анализа потоков данных внутри LLM, рассматривая головы внимания и экспертов как узлы обработки. Обнаружили, что в средних слоях моделей спонтанно формируется «синергетическое ядро» — зона, где интеграция информации превышает сумму её частей, тогда как ранние и поздние слои остаются преимущественно избыточными (redundant).ПОЧЕМУ это важно: Такая топология зеркально отражает структуру человеческого мозга с его «синергетическим ядром», намекая на общие эволюционные принципы биологического и искусственного интеллекта. Практическая ценность: применение RL-файнтюнинга (RLFT) прицельно к этому ядру даёт значительно больший прирост в задачах на рассуждение (MATH benchmark), чем обучение всего подряд, что открывает путь к эффективному сжатию и тренировке моделей.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2159
arXiv.org
A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
The independent evolution of intelligence in biological and artificial systems offers a unique opportunity to identify its fundamental computational principles. Here we show that large language...
🔥23
Новая работа с Лекуном и джепой. Теперь для Latent Action Models
Learning Latent Action World Models In The Wild
Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat
Статья: https://arxiv.org/abs/2601.05230
Ревью: https://arxiviq.substack.com/p/learning-latent-action-world-models
# TL;DR
ЧТО сделали: Исследователи успешно обучили модели скрытых действий (Latent Action Models, LAMs) на огромном массиве неразмеченного видео in-the-wild (YouTube-Temporal-1B). Главный инсайт — непрерывные (continuous) латентные пространства с грамотной регуляризацией (разреженность или шум) работают значительно лучше, чем популярная ранее векторная квантизация (VQ), использовавшаяся в моделях вроде Genie (https://arxiv.org/abs/2402.15391).
ПОЧЕМУ это важно: Работа устраняет зависимость от гигантских размеченных датасетов или узких симуляций. Авторы показали, что можно обучить легкий «контроллер», который переводит реальные действия робота в латентные действия, выученные моделью исключительно по роликам с YouTube. Это позволяет планировать задачи для реальных роботов (DROID, RECON) с качеством, сравнимым с обучением на ground-truth данных, фактически превращая интернет в бесконечный источник знаний о физике для робототехники.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2168
Learning Latent Action World Models In The Wild
Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat
Статья: https://arxiv.org/abs/2601.05230
Ревью: https://arxiviq.substack.com/p/learning-latent-action-world-models
# TL;DR
ЧТО сделали: Исследователи успешно обучили модели скрытых действий (Latent Action Models, LAMs) на огромном массиве неразмеченного видео in-the-wild (YouTube-Temporal-1B). Главный инсайт — непрерывные (continuous) латентные пространства с грамотной регуляризацией (разреженность или шум) работают значительно лучше, чем популярная ранее векторная квантизация (VQ), использовавшаяся в моделях вроде Genie (https://arxiv.org/abs/2402.15391).
ПОЧЕМУ это важно: Работа устраняет зависимость от гигантских размеченных датасетов или узких симуляций. Авторы показали, что можно обучить легкий «контроллер», который переводит реальные действия робота в латентные действия, выученные моделью исключительно по роликам с YouTube. Это позволяет планировать задачи для реальных роботов (DROID, RECON) с качеством, сравнимым с обучением на ground-truth данных, фактически превращая интернет в бесконечный источник знаний о физике для робототехники.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2168
arXiv.org
Learning Latent Action World Models In The Wild
Agents capable of reasoning and planning in the real world require the ability of predicting the consequences of their actions. While world models possess this capability, they most often require...
1🔥25❤5
Очень классная работа, мне нравится подход. Развитие идей десятков и сотен предыдущих работ и продолжение линейки: Transformer-XL, Compressive Transformer, RMT, LCM. Я бы даже сказал, что это LCM 2.0 (Large Concept Model).
В отличие от обычного LCM, который работал над предложениями, но не совсем end-to-end, используя внешние SONAR энкодеры и декодеры для предложений, Thought Gestalt (TG) работает на двух уровнях. На внешнем уровне он пользуется последовательностью гештальтов-предложений, генерируемых автоматом через дифференцируемую память, а на внутреннем он генерит токен-за-токеном как обычный трансформер, но используя кросс-аттеншн на память гештальтов.
Это мне кажется очень правильный подход. Ждём развития!
Modeling Language as a Sequence of Thoughts
Nasim Borazjanizadeh, James L. McClelland
Статья: https://arxiv.org/abs/2512.25026
Ревью: https://arxiviq.substack.com/p/modeling-language-as-a-sequence-of
# TL;DR
ЧТО сделали: Авторы представили модель Thought Gestalt (TG) — архитектуру рекуррентного трансформера, который обрабатывает текст не сплошным потоком токенов, а предложение за предложением. Вместо хранения полной истории прошлых токенов (как в классическом KV-кэше), TG сжимает каждое обработанное предложение в единое векторное представление — «гештальт» — и сохраняет его в дифференцируемой памяти. Ключевая фишка: модель обучается end-to-end, то есть градиенты от предсказания будущих токенов текут назад через память, оптимизируя параметры, которые создали представления прошлых предложений.
ПОЧЕМУ это важно: Подход бросает вызов доминированию статического контекстного окна, показывая, что рекуррентность на уровне событий может быть эффективнее по данным, чем простое внимание к токенам. Авторы показывают, что TG обходит GPT-2 в scaling laws (требуя на ~5-8% меньше данных для той же перплексии) и значительно смягчает «Проклятие обратимости» (Reversal Curse, https://arxiv.org/abs/2309.12288) — ситуацию, когда модель выучила
Открыть гештальт: https://news.1rj.ru/str/gonzo_ML_podcasts/2181
В отличие от обычного LCM, который работал над предложениями, но не совсем end-to-end, используя внешние SONAR энкодеры и декодеры для предложений, Thought Gestalt (TG) работает на двух уровнях. На внешнем уровне он пользуется последовательностью гештальтов-предложений, генерируемых автоматом через дифференцируемую память, а на внутреннем он генерит токен-за-токеном как обычный трансформер, но используя кросс-аттеншн на память гештальтов.
Это мне кажется очень правильный подход. Ждём развития!
Modeling Language as a Sequence of Thoughts
Nasim Borazjanizadeh, James L. McClelland
Статья: https://arxiv.org/abs/2512.25026
Ревью: https://arxiviq.substack.com/p/modeling-language-as-a-sequence-of
# TL;DR
ЧТО сделали: Авторы представили модель Thought Gestalt (TG) — архитектуру рекуррентного трансформера, который обрабатывает текст не сплошным потоком токенов, а предложение за предложением. Вместо хранения полной истории прошлых токенов (как в классическом KV-кэше), TG сжимает каждое обработанное предложение в единое векторное представление — «гештальт» — и сохраняет его в дифференцируемой памяти. Ключевая фишка: модель обучается end-to-end, то есть градиенты от предсказания будущих токенов текут назад через память, оптимизируя параметры, которые создали представления прошлых предложений.
ПОЧЕМУ это важно: Подход бросает вызов доминированию статического контекстного окна, показывая, что рекуррентность на уровне событий может быть эффективнее по данным, чем простое внимание к токенам. Авторы показывают, что TG обходит GPT-2 в scaling laws (требуя на ~5-8% меньше данных для той же перплексии) и значительно смягчает «Проклятие обратимости» (Reversal Curse, https://arxiv.org/abs/2309.12288) — ситуацию, когда модель выучила
A -> B, но не может вывести B -> A. Это намекает на то, что сжатие контекста в латентные «мысли» создаёт более надёжные семантические репрезентации, чем поверхностная статистика токенов.Открыть гештальт: https://news.1rj.ru/str/gonzo_ML_podcasts/2181
Telegram
gonzo_ML_podcasts
Гештальт мысли: Сжимаем контекст в дифференцируемую память событий
Modeling Language as a Sequence of Thoughts
Nasim Borazjanizadeh, James L. McClelland
Статья: https://arxiv.org/abs/2512.25026
Ревью: https://arxiviq.substack.com/p/modeling-language-as-a…
Modeling Language as a Sequence of Thoughts
Nasim Borazjanizadeh, James L. McClelland
Статья: https://arxiv.org/abs/2512.25026
Ревью: https://arxiviq.substack.com/p/modeling-language-as-a…
🔥13❤6👍4👎1👀1
А Кокос-то (разбирали тут) не думает! А теперь прослушайте пение дрозда.
Do Latent Tokens Think? A Causal and Adversarial Analysis of Chain-of-Continuous-Thought
Yuyi Zhang, Boyu Tang, Tianjie Ju, Sufeng Duan, Gongshen Liu
Статья: https://arxiv.org/abs/2512.21711
Ревью: https://arxiviq.substack.com/p/do-latent-tokens-think-a-causal-and
# TL;DR
ЧТО сделали: Авторы жестко протестировали парадигму "Chain-of-Continuous-Thought" (COCONUT), в которой явные токены рассуждений заменяются на скрытые (латентные) вектора. С помощью каузальных интервенций (causal steering) и состязательных датасетов исследователи проверили, происходит ли в этих векторах реальный процесс мышления или модель просто имитирует его.
ПОЧЕМУ это важно: Сейчас ведущие лаборатории пытаются интернализировать "System 2" рассуждения, чтобы сэкономить токены и ускорить вычисления (пример — COCONUT https://news.1rj.ru/str/gonzo_ML/3567). Критически важно понимать, кодируют ли эти сжатые состояния смысл или служат просто "вычислительной заглушкой". Работа доказывает, что текущие методы непрерывного мышления работают как механизм "псевдо-рассуждений", крайне уязвимый к обучению на шорткатах (shortcut learning), что ставит под вопрос надежность таких архитектур.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2192
Do Latent Tokens Think? A Causal and Adversarial Analysis of Chain-of-Continuous-Thought
Yuyi Zhang, Boyu Tang, Tianjie Ju, Sufeng Duan, Gongshen Liu
Статья: https://arxiv.org/abs/2512.21711
Ревью: https://arxiviq.substack.com/p/do-latent-tokens-think-a-causal-and
# TL;DR
ЧТО сделали: Авторы жестко протестировали парадигму "Chain-of-Continuous-Thought" (COCONUT), в которой явные токены рассуждений заменяются на скрытые (латентные) вектора. С помощью каузальных интервенций (causal steering) и состязательных датасетов исследователи проверили, происходит ли в этих векторах реальный процесс мышления или модель просто имитирует его.
ПОЧЕМУ это важно: Сейчас ведущие лаборатории пытаются интернализировать "System 2" рассуждения, чтобы сэкономить токены и ускорить вычисления (пример — COCONUT https://news.1rj.ru/str/gonzo_ML/3567). Критически важно понимать, кодируют ли эти сжатые состояния смысл или служат просто "вычислительной заглушкой". Работа доказывает, что текущие методы непрерывного мышления работают как механизм "псевдо-рассуждений", крайне уязвимый к обучению на шорткатах (shortcut learning), что ставит под вопрос надежность таких архитектур.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2192
Telegram
gonzo-обзоры ML статей
Training Large Language Models to Reason in a Continuous Latent Space
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
Статья: https://arxiv.org/abs/2412.06769
Код: https://github.com/facebookresearch/coconut …
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
Статья: https://arxiv.org/abs/2412.06769
Код: https://github.com/facebookresearch/coconut …
🔥6👌2❤1
Может, паттерн-матчинг — это хорошо?
The unreasonable effectiveness of pattern matching
Gary Lupyan, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2601.11432
Ревью: https://arxiviq.substack.com/p/the-unreasonable-effectiveness-of
# TL;DR
ЧТО сделали:
Авторы исследовали способность LLM восстанавливать семантический смысл из текста в стиле «Бармаглота» (Jabberwocky) — отрывков, где значимые слова заменены на бессмысленный набор букв, но сохранён синтаксис (например, «He dwushed a ghanc zawk»). Показано, что модели уровня Gemini и ChatGPT способны переводить эту абракадабру обратно в исходный текст или правдоподобные альтернативы, а также играть в текстовые квесты на выдуманном языке, опираясь исключительно на структурные паттерны.
ПОЧЕМУ это важно:
Работа бросает вызов редукционистскому взгляду на LLM как на «стохастических попугаев» или «размытые JPEG-картинки интернета». Исследование утверждает, что высокоуровневое понимание — это эмерджентное свойство сложного сопоставления паттернов (pattern matching). Механизм, который модели используют для «устранения размытости» (de-blurring) в бессмысленном тексте, фундаментально схож с человеческим мышлением, которое опирается на удовлетворение ограничений (constraint satisfaction), а не на формальную булеву логику.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2202
The unreasonable effectiveness of pattern matching
Gary Lupyan, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2601.11432
Ревью: https://arxiviq.substack.com/p/the-unreasonable-effectiveness-of
# TL;DR
ЧТО сделали:
Авторы исследовали способность LLM восстанавливать семантический смысл из текста в стиле «Бармаглота» (Jabberwocky) — отрывков, где значимые слова заменены на бессмысленный набор букв, но сохранён синтаксис (например, «He dwushed a ghanc zawk»). Показано, что модели уровня Gemini и ChatGPT способны переводить эту абракадабру обратно в исходный текст или правдоподобные альтернативы, а также играть в текстовые квесты на выдуманном языке, опираясь исключительно на структурные паттерны.
ПОЧЕМУ это важно:
Работа бросает вызов редукционистскому взгляду на LLM как на «стохастических попугаев» или «размытые JPEG-картинки интернета». Исследование утверждает, что высокоуровневое понимание — это эмерджентное свойство сложного сопоставления паттернов (pattern matching). Механизм, который модели используют для «устранения размытости» (de-blurring) в бессмысленном тексте, фундаментально схож с человеческим мышлением, которое опирается на удовлетворение ограничений (constraint satisfaction), а не на формальную булеву логику.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2202
arXiv.org
The unreasonable effectiveness of pattern matching
We report on an astonishing ability of large language models (LLMs) to make sense of "Jabberwocky" language in which most or all content words have been randomly replaced by nonsense strings,...
🔥9❤4🤔1