gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
🔥18😁13🤩8🤮5👎1
Интересная работа, требует более вдумчивого чтения, чем просто саммари.

On the Fundamental Limits of LLMs at Scale
Muhammad Ahmed Mohsin, Muhammad Umer, Ahsan Bilal, Zeeshan Memon, Muhammad Ibtsaam Qadir, Sagnik Bhattacharya, Hassan Rizwan, Abhiram R. Gorle, Maahe Zehra Kazmi, Ayesha Mohsin, Muhammad Usman Rafique, Zihao He, Pulkit Mehta, Muhammad Ali Jamshed, John M. Cioffi
Статья: https://arxiv.org/abs/2511.12869
Ревью: https://arxiviq.substack.com/p/on-the-fundamental-limits-of-llms

# TL;DR

ЧТО сделали: Авторы представили единую теоретическую структуру, определяющую пять незыблемых границ масштабирования LLM: галлюцинации, сжатие контекста, деградация рассуждений (reasoning), хрупкость поиска (retrieval) и мультимодальное рассогласование. Синтезируя доказательства из теории вычислимости, теории информации и статистического обучения, они показывают, что эти сбои — не временные артефакты данных, а встроенные свойства архитектуры трансформеров и самой задачи предсказания следующего токена.

ПОЧЕМУ это важно: Работа бросает вызов догме «scale is all you need», математически доказывая, что определенные классы ошибок (например, возникающие из неразрешимых проблем или оценки хвостов распределений) нельзя исправить простым добавлением параметров или вычислений. Для надежности нужны сдвиги в архитектурной парадигме — например, нейро-символическая интеграция или поиск с ограниченным оракулом.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1561
🔥22👍8🫡62
Обещанный Лавкрафт
👾198😁6❤‍🔥3🤮3👍2
Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст.

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li
Статья: https://arxiv.org/abs/2511.23319
Код: https://github.com/ant-research/long-context-modeling
Ревью: https://arxiviq.substack.com/p/every-token-counts-generalizing-16m

# TL;DR

ЧТО сделали: Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16 миллионов токенов. Главная фишка — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения. Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск.

ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность O(N^2), а линейные альтернативы вроде Mamba (https://news.1rj.ru/str/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов. HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1574
👍15👀3
🔥28👍6👏2😁21👌1
Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y Arcas (у меня в процессе ручного разбора одна из его работ), это для вас!

Новая работа на 200+ страниц, развитие темы про AIXI.

Саммари недостаточно, надо внимательно читать.

Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning

Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence

# TL;DR

ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.

ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1584
1🔥16🤯75👍1
Две картинки на выбор, какая вам лучше?
🔥7👍31👻1
5🔥337😁5👻2👍1
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.

https://www.essential.ai/research/rnj-1

8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
1🔥9
Прикольная визуализация процесса обучения, мне нравится
1😁103
Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности:

С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.


И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа.

Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks

Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li
Статья: https://arxiv.org/abs/2512.03262
Код: https://github.com/LeiLiLab/susvibes
Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking

# TL;DR

ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.

ПОЧЕМУ это важно: Работа в цифрах показывает риски "вайб-кодинга" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1594
😁14👍54
25🐳8😁2🔥1🙏1