Любопытная работа от Apple, дифференцируемый RAG по сути.
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation
# TL;DR
ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.
ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1550
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation
# TL;DR
ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.
ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1550
arXiv.org
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this...
👍30🔥7❤4❤🔥1
Интересная работа, требует более вдумчивого чтения, чем просто саммари.
On the Fundamental Limits of LLMs at Scale
Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi
Статья: https://arxiv.org/abs/2511.12869
Ревью: https://arxiviq.substack.com/p/on-the-fundamental-limits-of-llms
# TL;DR
ЧТО сделали: Авторы представили единую теоретическую структуру, определяющую пять незыблемых границ масштабирования LLM: галлюцинации, сжатие контекста, деградация рассуждений (reasoning), хрупкость поиска (retrieval) и мультимодальное рассогласование. Синтезируя доказательства из теории вычислимости, теории информации и статистического обучения, они показывают, что эти сбои — не временные артефакты данных, а встроенные свойства архитектуры трансформеров и самой задачи предсказания следующего токена.
ПОЧЕМУ это важно: Работа бросает вызов догме «scale is all you need», математически доказывая, что определенные классы ошибок (например, возникающие из неразрешимых проблем или оценки хвостов распределений) нельзя исправить простым добавлением параметров или вычислений. Для надежности нужны сдвиги в архитектурной парадигме — например, нейро-символическая интеграция или поиск с ограниченным оракулом.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1561
On the Fundamental Limits of LLMs at Scale
Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi
Статья: https://arxiv.org/abs/2511.12869
Ревью: https://arxiviq.substack.com/p/on-the-fundamental-limits-of-llms
# TL;DR
ЧТО сделали: Авторы представили единую теоретическую структуру, определяющую пять незыблемых границ масштабирования LLM: галлюцинации, сжатие контекста, деградация рассуждений (reasoning), хрупкость поиска (retrieval) и мультимодальное рассогласование. Синтезируя доказательства из теории вычислимости, теории информации и статистического обучения, они показывают, что эти сбои — не временные артефакты данных, а встроенные свойства архитектуры трансформеров и самой задачи предсказания следующего токена.
ПОЧЕМУ это важно: Работа бросает вызов догме «scale is all you need», математически доказывая, что определенные классы ошибок (например, возникающие из неразрешимых проблем или оценки хвостов распределений) нельзя исправить простым добавлением параметров или вычислений. Для надежности нужны сдвиги в архитектурной парадигме — например, нейро-символическая интеграция или поиск с ограниченным оракулом.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1561
arXiv.org
On the Fundamental Limits of LLMs at Scale
Large Language Models (LLMs) have benefited enormously from scaling, yet these gains are bounded by five fundamental limitations: (1) hallucination, (2) context compression, (3) reasoning...
🔥21👍7🫡5❤2
Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст.
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
Статья: https://arxiv.org/abs/2511.23319
Код: https://github.com/ant-research/long-context-modeling
Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m
# TL;DR
ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск.
ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1574
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
Статья: https://arxiv.org/abs/2511.23319
Код: https://github.com/ant-research/long-context-modeling
Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m
# TL;DR
ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск.
ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность
O(N^2), а линейные альтернативы вроде Mamba (https://news.1rj.ru/str/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам.Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1574
Telegram
gonzo-обзоры ML статей
Любопытная работа от Apple, дифференцируемый RAG по сути.
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659…
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659…
👍15👀3
Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y Arcas (у меня в процессе ручного разбора одна из его работ), это для вас!
Новая работа на 200+ страниц, развитие темы про AIXI.
Саммари недостаточно, надо внимательно читать.
Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning
Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence
# TL;DR
ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.
ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1584
Новая работа на 200+ страниц, развитие темы про AIXI.
Саммари недостаточно, надо внимательно читать.
Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning
Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence
# TL;DR
ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.
ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1584
arXiv.org
Embedded Universal Predictive Intelligence: a coherent framework...
The standard theory of model-free reinforcement learning assumes that the environment dynamics are stationary and that agents are decoupled from their environment, such that policies are treated...
1🔥15🤯6❤5👍1
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.
https://www.essential.ai/research/rnj-1
8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
https://www.essential.ai/research/rnj-1
8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
1🔥9