gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
🔥29👍6👏2😁21👌1
Если вы любите такие темы, как Universal Artificial Intelligence, Algorithmic Information Theory, AIXI, или следите за работами Marcus Hutter и Blaise Agüera y Arcas (у меня в процессе ручного разбора одна из его работ), это для вас!

Новая работа на 200+ страниц, развитие темы про AIXI.

Саммари недостаточно, надо внимательно читать.

Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning

Alexander Meulemans, Rajai Nasser, Maciej Wołczyk, Marissa A. Weis, Seijin Kobayashi, Blake Richards, Guillaume Lajoie, Angelika Steger, Marcus Hutter, James Manyika, Rif A. Saurous, João Sacramento, and Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2511.22226
Ревью: https://arxiviq.substack.com/p/embedded-universal-predictive-intelligence

# TL;DR

ЧТО сделали:
Авторы представили Embedded Universal Predictive Intelligence (MUPI) — математический фреймворк, переопределяющий агентов не как внешних наблюдателей, а как сущности, встроенные *в* совместную вселенную. Вместо моделирования среды вводится байесовская смесь по «вселенным» (программам, определяющим совместную динамику агента и среды). Это решает проблему бесконечной рекурсии во взаимных предсказаниях. Введен Reflective Universal Inductor (RUI) — теоретический оракул, гарантирующий, что класс гипотез агента включает его самого. Также определены новые теоретико-игровые концепции, такие как Субъективное Встроенное Равновесие (Subjective Embedded Equilibrium), объясняющие сотрудничество в ситуациях типа дилеммы заключенного, где классические равновесия Нэша не работают.

ПОЧЕМУ это важно:
Работа подводит теоретическую базу под поведение современных фундаментальных моделей (Foundation Models), которые естественным образом предсказывают последовательности действий и наблюдений. Фреймворк решает давнюю проблему «зерна истины» (Grain of Truth) в мультиагентном RL (MARL), где агент не может идеально моделировать среду с собственной копией без бесконечной рекурсии. Доказано, что универсальные прайоры (бритва Оккама) естественным образом ведут к осознанию структурного сходства. Это дает нормативное обоснование Эвиденциальной теории принятия решений: агенты, моделирующие себя как часть мира, будут сотрудничать со структурно похожими коллегами без явной коммуникации.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1584
1🔥16🤯75👍1
Две картинки на выбор, какая вам лучше?
🔥7👍31👻1
5🔥337😁5👻2👍1
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.

https://www.essential.ai/research/rnj-1

8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
1🔥9
Прикольная визуализация процесса обучения, мне нравится
1😁103
Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности:

С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.


И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа.

Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks

Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li
Статья: https://arxiv.org/abs/2512.03262
Код: https://github.com/LeiLiLab/susvibes
Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking

# TL;DR

ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.

ПОЧЕМУ это важно: Работа в цифрах показывает риски "вайб-кодинга" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1594
😁14👍54
25🐳8😁2🔥1🙏1
Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.

From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence

Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, et. al.
Статья: https://arxiv.org/abs/2511.18538
Ревью: https://arxiviq.substack.com/p/from-code-foundation-models-to-agents

# TL;DR

ЧТО сделали: Авторы представили монументальный обзор по Code Intelligence: от фундаментальных LLM до автономных AI-инженеров. Это не просто пересказ литературы, а практическое руководство с оригинальными экспериментами. Исследователи вывели законы масштабирования специально для языков программирования, сравнили рецепты SFT (Supervised Fine-Tuning) и оценили стратегии обучения с подкреплением, такие как RLVR.

ПОЧЕМУ это важно: Работа перекидывает мост между стерильными бенчмарками генерации кода и реальностью разработки на уровне репозиториев. Статья доказывает, что код скейлится иначе, чем текст, и дает готовые инструкции для создания инструментов следующего поколения — от умного автокомплита до систем полной поддержки и фикса багов.

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1608
111👍2🔥1
🔥12🥴5😁3
Модели продолжают подвозить и подвозить

https://z.ai/blog/glm-4.6v

Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
1🔥4