А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.
https://www.essential.ai/research/rnj-1
8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
https://www.essential.ai/research/rnj-1
8B открытая модель Rnj-1 (Рамануджан! Но произносится как “range-1”), которая хороша для кода, инструкций, агентов и математики.
1🔥9
Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности:
И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа.
Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks
Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li
Статья: https://arxiv.org/abs/2512.03262
Код: https://github.com/LeiLiLab/susvibes
Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking
# TL;DR
ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.
ПОЧЕМУ это важно: Работа в цифрах показывает риски "вайб-кодинга" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1594
С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие.
И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа.
Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks
Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li
Статья: https://arxiv.org/abs/2512.03262
Код: https://github.com/LeiLiLab/susvibes
Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking
# TL;DR
ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.
ПОЧЕМУ это важно: Работа в цифрах показывает риски "вайб-кодинга" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1594
arXiv.org
Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated...
Vibe coding is a new programming paradigm in which human engineers instruct large language model (LLM) agents to complete complex coding tasks with little supervision. Although it is increasingly...
😁14👍5❤4
Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.
From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence
Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, et. al.
Статья: https://arxiv.org/abs/2511.18538
Ревью: https://arxiviq.substack.com/p/from-code-foundation-models-to-agents
# TL;DR
ЧТО сделали: Авторы представили монументальный обзор по Code Intelligence: от фундаментальных LLM до автономных AI-инженеров. Это не просто пересказ литературы, а практическое руководство с оригинальными экспериментами. Исследователи вывели законы масштабирования специально для языков программирования, сравнили рецепты SFT (Supervised Fine-Tuning) и оценили стратегии обучения с подкреплением, такие как RLVR.
ПОЧЕМУ это важно: Работа перекидывает мост между стерильными бенчмарками генерации кода и реальностью разработки на уровне репозиториев. Статья доказывает, что код скейлится иначе, чем текст, и дает готовые инструкции для создания инструментов следующего поколения — от умного автокомплита до систем полной поддержки и фикса багов.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1608
From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence
Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, et. al.
Статья: https://arxiv.org/abs/2511.18538
Ревью: https://arxiviq.substack.com/p/from-code-foundation-models-to-agents
# TL;DR
ЧТО сделали: Авторы представили монументальный обзор по Code Intelligence: от фундаментальных LLM до автономных AI-инженеров. Это не просто пересказ литературы, а практическое руководство с оригинальными экспериментами. Исследователи вывели законы масштабирования специально для языков программирования, сравнили рецепты SFT (Supervised Fine-Tuning) и оценили стратегии обучения с подкреплением, такие как RLVR.
ПОЧЕМУ это важно: Работа перекидывает мост между стерильными бенчмарками генерации кода и реальностью разработки на уровне репозиториев. Статья доказывает, что код скейлится иначе, чем текст, и дает готовые инструкции для создания инструментов следующего поколения — от умного автокомплита до систем полной поддержки и фикса багов.
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1608
arXiv.org
From Code Foundation Models to Agents and Applications: A...
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language denoscriptions into functional code, driving commercial...
1❤11👍2🔥1
Модели продолжают подвозить и подвозить
https://z.ai/blog/glm-4.6v
Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
https://z.ai/blog/glm-4.6v
Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
1🔥4
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские.
В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!
Дальше поразбираю какие-нибудь другие темы.
How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful
# TL;DR
ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.
ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1621
В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!
Дальше поразбираю какие-нибудь другие темы.
How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful
# TL;DR
ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.
ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1621
arXiv.org
How Far Are We from Genuinely Useful Deep Research Agents?
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on...
👍10❤6😁4
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для которой человек не нужен. На этот раз в Курсоре с Sonnet 4.5/Composer 1.
Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.
И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.
И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
😁66🤣22👍2🔥1
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq
54% на ARC-AGI-2, $31/task
https://x.com/i/status/1997743855203148038
54% на ARC-AGI-2, $31/task
https://x.com/i/status/1997743855203148038
X (formerly Twitter)
ARC Prize (@arcprize) on X
We have verified a new SOTA Gemini 3 Pro Refinement technique, authored by Poetiq
54% on ARC-AGI-2, $31/task
54% on ARC-AGI-2, $31/task
👍10🔥3👀3
Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.
On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress
# TL;DR
ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (
ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (
Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1635
On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress
# TL;DR
ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (
10^23 FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla.ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (
scale), и будущий рост эффективности намертво привязан к способности дальше наращивать железо.Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/1635
arXiv.org
On the Origin of Algorithmic Progress in AI
Algorithms have been estimated to increase AI training FLOP efficiency by a factor of 22,000 between 2012 and 2023 [Ho et al., 2024]. Running small-scale ablation experiments on key innovations...
😢11👍4🔥1