Предпоследняя работа-финалист NeurIPS 2025. Тотальный хардкор! Специалисты в теории трансдуктивного онлайн-обучения есть?
Но зато узнал, что в дополнение к VC-размерности бывает ещё и LD.
The Quadratic Gap: Resolving the Value of Unlabeled Data in Online Learning
Zachary Chase, Steve Hanneke, Shay Moran, Jonathan Shafer
Статья: https://openreview.net/forum?id=EoebmBe9fG
Ревью: https://arxiviq.substack.com/p/neurips-2025-optimal-mistake-bounds
# TL;DR
ЧТО сделали: Авторы решили 30-летнюю открытую проблему, получив за это Best Paper Runner-Up на NeurIPS 2025. Они доказали, что для класса гипотез с размерностью Литтлстоуна
ПОЧЕМУ это важно: Результат математически строго показывает, насколько полезно «заглядывать в будущее». Доступ к неразмеченной последовательности тестовых данных позволяет квадратично снизить число ошибок по сравнению со стандартным онлайн-сеттингом (где граница равна
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1524
Но зато узнал, что в дополнение к VC-размерности бывает ещё и LD.
The Quadratic Gap: Resolving the Value of Unlabeled Data in Online Learning
Zachary Chase, Steve Hanneke, Shay Moran, Jonathan Shafer
Статья: https://openreview.net/forum?id=EoebmBe9fG
Ревью: https://arxiviq.substack.com/p/neurips-2025-optimal-mistake-bounds
# TL;DR
ЧТО сделали: Авторы решили 30-летнюю открытую проблему, получив за это Best Paper Runner-Up на NeurIPS 2025. Они доказали, что для класса гипотез с размерностью Литтлстоуна
d оптимальная граница ошибок в трансдуктивном онлайн-обучении составляет Θ(√d).ПОЧЕМУ это важно: Результат математически строго показывает, насколько полезно «заглядывать в будущее». Доступ к неразмеченной последовательности тестовых данных позволяет квадратично снизить число ошибок по сравнению со стандартным онлайн-сеттингом (где граница равна
d). Это закрывает огромный экспоненциальный разрыв между старой нижней границей Ω(log d) и верхней O(d).Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1524
openreview.net
Optimal Mistake Bounds for Transductive Online Learning
We resolve a 30-year-old open problem concerning the power of unlabeled data in online learning by tightly quantifying the gap between transductive and standard online learning. We prove that for...
❤9🔥3🤯1
Прекрасная картинка. Увидел у https://news.1rj.ru/str/fastsalttimes/4696. Оригинал: https://x.com/tomaspueyo/status/1993360931267473662
1🤣34👍12🤡11🔥8😁1
Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и механистическое объяснение законов скейлинга. Работа прекрасна!
Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields
# TL;DR
ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (
ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1531
Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields
# TL;DR
ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (
L ∝ 1/m). Этот скейлинг обусловлен геометрической интерференцией между векторами признаков, а не статистическими свойствами хвоста распределения данных.ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1531
arXiv.org
Superposition Yields Robust Neural Scaling
The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law, that loss decreases as a power law...
🔥25❤2👍2
Любопытная книга в открытом доступе
Artificial Humanities: A Fictional Perspective on Language in AI
Nina Beguš
Artificial Humanities explores how literature, history, and art can deepen our understanding of artificial intelligence and its development. By examining fictional representations of AI in parallel with actual technological developments, Nina Beguš presents a novel interdisciplinary framework for understanding the cultural, philosophical, and ethical dimensions of AI. She traces connections from Eliza Doolittle to ELIZA the chatbot and current language models, incorporates Slavic fictional examples from the Pygmalion paradigm, and compares mid-century science fiction and recent Hollywood films with contemporary developments in social robotics and virtual beings.
Highlighting the impact of human-like AI design, from gendered virtual assistants to romanticized social robots, the book shows how these technologies intersect with longstanding humanistic questions about the concepts of creativity and language as well as the relations between humans and machines. Additionally, the book explores AI's applications in medical fields, particularly psychiatry and neurotechnology, including how AI interacts with the human body and mind to address conditions like paralysis. By emphasizing the philosophical and cultural implications of these technologies, Beguš highlights the need for responsible innovation that prioritizes human well-being as well as machine potential outside of human imitation. Accessible and thought-provoking, Artificial Humanities offers tools for analyzing and assessing technologies while they are being developed and invites readers to see how the humanities can guide us toward a more thoughtful future for AI.
https://www.fulcrum.org/concern/monographs/jh343w51t
Artificial Humanities: A Fictional Perspective on Language in AI
Nina Beguš
Artificial Humanities explores how literature, history, and art can deepen our understanding of artificial intelligence and its development. By examining fictional representations of AI in parallel with actual technological developments, Nina Beguš presents a novel interdisciplinary framework for understanding the cultural, philosophical, and ethical dimensions of AI. She traces connections from Eliza Doolittle to ELIZA the chatbot and current language models, incorporates Slavic fictional examples from the Pygmalion paradigm, and compares mid-century science fiction and recent Hollywood films with contemporary developments in social robotics and virtual beings.
Highlighting the impact of human-like AI design, from gendered virtual assistants to romanticized social robots, the book shows how these technologies intersect with longstanding humanistic questions about the concepts of creativity and language as well as the relations between humans and machines. Additionally, the book explores AI's applications in medical fields, particularly psychiatry and neurotechnology, including how AI interacts with the human body and mind to address conditions like paralysis. By emphasizing the philosophical and cultural implications of these technologies, Beguš highlights the need for responsible innovation that prioritizes human well-being as well as machine potential outside of human imitation. Accessible and thought-provoking, Artificial Humanities offers tools for analyzing and assessing technologies while they are being developed and invites readers to see how the humanities can guide us toward a more thoughtful future for AI.
https://www.fulcrum.org/concern/monographs/jh343w51t
www.fulcrum.org
Artificial Humanities: A Fictional Perspective on Language in AI
<I>Artificial Humanities</I> explores how literature, history, and art can deepen our understanding of artificial intelligence and its development. By examining fictional representations of AI in parallel with actual technological developments, Nina Beguš…
❤12🔥1🥰1🤔1🌚1
Будущее за оркестрами, обучайте дирижёров!
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, et al.
Paper: https://arxiv.org/abs/2511.21689
Code: https://github.com/NVlabs/ToolOrchestra/
Data: https://huggingface.co/datasets/nvidia/ToolScale
Model: https://huggingface.co/nvidia/Orchestrator-8B
Webpage: https://research.nvidia.com/labs/lpr/ToolOrchestra
Review: https://arxiviq.substack.com/p/toolorchestra-elevating-intelligence
# TL;DR
ЧТО сделали: Представили ToolOrchestra — фреймворк для обучения легковесных LLM (8B параметров) выступать в роли умных маршрутизаторов для зоопарка инструментов и мощных моделей-экспертов (вроде GPT-5). С помощью алгоритма Group Relative Policy Optimization (GRPO) (https://arxiv.org/abs/2402.03300) и массивного синтетического датасета ToolScale, полученный Оркестратор учится балансировать точность решения с ценой вычислений и предпочтениями юзера.
ПОЧЕМУ это важно: Работа ставит под сомнение гипотезу о том, что "чем больше модель, тем лучше". Авторы показывают, что 8B модель, грамотно управляющая внешними ресурсами, может обойти фронтир-модели (как GPT-5) на сложных бенчмарках типа Humanity’s Last Exam (https://arxiv.org/abs/2501.14249), срезая косты на инференс на ~70%. Это валидирует переход от гигантских монолитов к составным системам (Compound AI Systems), где интеллект рождается из правильной оркестрации.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1541
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, et al.
Paper: https://arxiv.org/abs/2511.21689
Code: https://github.com/NVlabs/ToolOrchestra/
Data: https://huggingface.co/datasets/nvidia/ToolScale
Model: https://huggingface.co/nvidia/Orchestrator-8B
Webpage: https://research.nvidia.com/labs/lpr/ToolOrchestra
Review: https://arxiviq.substack.com/p/toolorchestra-elevating-intelligence
# TL;DR
ЧТО сделали: Представили ToolOrchestra — фреймворк для обучения легковесных LLM (8B параметров) выступать в роли умных маршрутизаторов для зоопарка инструментов и мощных моделей-экспертов (вроде GPT-5). С помощью алгоритма Group Relative Policy Optimization (GRPO) (https://arxiv.org/abs/2402.03300) и массивного синтетического датасета ToolScale, полученный Оркестратор учится балансировать точность решения с ценой вычислений и предпочтениями юзера.
ПОЧЕМУ это важно: Работа ставит под сомнение гипотезу о том, что "чем больше модель, тем лучше". Авторы показывают, что 8B модель, грамотно управляющая внешними ресурсами, может обойти фронтир-модели (как GPT-5) на сложных бенчмарках типа Humanity’s Last Exam (https://arxiv.org/abs/2501.14249), срезая косты на инференс на ~70%. Это валидирует переход от гигантских монолитов к составным системам (Compound AI Systems), где интеллект рождается из правильной оркестрации.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1541
arXiv.org
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool...
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally...
🔥16👍12❤1
В последние дни интересных моделей привалило!
1. DeepSeek-V3.2: обычный (замена V3.2-Exp) и DeepSeek-V3.2-Speciale (с улучшенным ризонингом). Обычный 3.2 заявляют аналогом GPT-5, а специальный — конкурентом Gemini 3.0 Pro.
Выложено под MIT License (https://huggingface.co/collections/deepseek-ai/deepseek-v32).
https://api-docs.deepseek.com/news/news251201
2. Mistral 3: 14B, 8B и 3B dense модели Ministral + Mistral Large 3 MoE 675B/41B.
Всё выложено под Apache 2.0.
https://mistral.ai/news/mistral-3
3. Но самое интересное — это WhAM или Whale Acoustics Model от проекта CETI (https://news.1rj.ru/str/gonzo_ML/2182).
Файнтюненный трансформер VampNet, умеет генерить коды (codas, не codes — последовательности кликов) кашалотов из аудио промпта.
Делайте ставки, сколько ещё нам осталось до первой успешной коммуникации с животными на их языке?
Статья с NeurIPS 2025, Репа
Но вообще я тормоз, её раньше выложили, я просто только что увидел сообщение от CETI. Есть уже с сентября запись доклада с воркшопа Decoding Communication in Nonhuman Species IV (все видео здесь)
Где-то в очереди на разбор у меня висит тема про языковые и акустические модели для животных. Надеюсь, доберусь.
1. DeepSeek-V3.2: обычный (замена V3.2-Exp) и DeepSeek-V3.2-Speciale (с улучшенным ризонингом). Обычный 3.2 заявляют аналогом GPT-5, а специальный — конкурентом Gemini 3.0 Pro.
Выложено под MIT License (https://huggingface.co/collections/deepseek-ai/deepseek-v32).
https://api-docs.deepseek.com/news/news251201
2. Mistral 3: 14B, 8B и 3B dense модели Ministral + Mistral Large 3 MoE 675B/41B.
Всё выложено под Apache 2.0.
https://mistral.ai/news/mistral-3
3. Но самое интересное — это WhAM или Whale Acoustics Model от проекта CETI (https://news.1rj.ru/str/gonzo_ML/2182).
Файнтюненный трансформер VampNet, умеет генерить коды (codas, не codes — последовательности кликов) кашалотов из аудио промпта.
Делайте ставки, сколько ещё нам осталось до первой успешной коммуникации с животными на их языке?
Статья с NeurIPS 2025, Репа
Но вообще я тормоз, её раньше выложили, я просто только что увидел сообщение от CETI. Есть уже с сентября запись доклада с воркшопа Decoding Communication in Nonhuman Species IV (все видео здесь)
Где-то в очереди на разбор у меня висит тема про языковые и акустические модели для животных. Надеюсь, доберусь.
🔥12👍3❤2🐳1
Любопытная работа от Apple, дифференцируемый RAG по сути.
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation
# TL;DR
ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.
ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1550
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning
Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
Статья: https://arxiv.org/abs/2511.18659
Код: https://github.com/apple/ml-clara
Ревью: https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation
# TL;DR
ЧТО сделали: Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end. Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска. Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа.
ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен. Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста. CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве. Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1550
arXiv.org
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this...
👍30🔥7❤4❤🔥1