В свежей работе Anthropic предлагают разделить ошибки LLM на две составляющие.
Bias — когда модель систематически делает неправильное.
Variance — когда результат сильно меняется от запуска к запуску.
Долю variance авторы используют как количественную меру incoherence — практической непредсказуемости.
Дальше эту непредсказуемость проверяют на прикладных сценариях: QA-бенчмарки, SWE-Bench, агентные цепочки действий. Картина повторяется везде. По мере роста длины цепочки действий агент всё чаще теряет нить задачи, делает лишние шаги или начинает себе противоречить. Это наблюдается у всех моделей, без исключений.
Увеличение размера модели помогает, но только до определённого предела. На простых задачах более крупные модели действительно ведут себя стабильнее. На сложных эффект исчезает или меняет знак: мощные модели чаще уходят в длинные, нестабильные рассуждения, которые повышают variance.
Для прикладных систем это означает, что большинство отказов будет выглядеть не как чёткий баг, а как хаотичное поведение на длинной дистанции. Проблема чаще не в том, что агент решает сделать, а в том, насколько воспроизводимо он это делает.
TL;DR: Предсказуемая ошибка лучше непредсказуемого успеха.
@ai_for_devs
Bias — когда модель систематически делает неправильное.
Variance — когда результат сильно меняется от запуска к запуску.
Долю variance авторы используют как количественную меру incoherence — практической непредсказуемости.
Дальше эту непредсказуемость проверяют на прикладных сценариях: QA-бенчмарки, SWE-Bench, агентные цепочки действий. Картина повторяется везде. По мере роста длины цепочки действий агент всё чаще теряет нить задачи, делает лишние шаги или начинает себе противоречить. Это наблюдается у всех моделей, без исключений.
Увеличение размера модели помогает, но только до определённого предела. На простых задачах более крупные модели действительно ведут себя стабильнее. На сложных эффект исчезает или меняет знак: мощные модели чаще уходят в длинные, нестабильные рассуждения, которые повышают variance.
Для прикладных систем это означает, что большинство отказов будет выглядеть не как чёткий баг, а как хаотичное поведение на длинной дистанции. Проблема чаще не в том, что агент решает сделать, а в том, насколько воспроизводимо он это делает.
TL;DR: Предсказуемая ошибка лучше непредсказуемого успеха.
@ai_for_devs
1👍25🔥6💯5❤3🤯1
🤝 Veai — технологический партнёр AI for Devs
Мы стараемся быть максимально прозрачными с вами. Чтобы делать качественный контент и развивать канал, нам нужны ресурсы — в том числе финансовые.
Поэтому мы договорились о партнёрстве с Veai. Это российская команда, которая разрабатывает AI-агента для разработчиков — инструмент, помогающий в повседневной работе с кодом.
Совсем недавно у ребят появился бесплатный 30-дневный период, так что можно спокойно попробовать продукт и понять, подходит ли он вам.
Мы будем периодически рассказывать про Veai: делиться возможностями продукта, новостями и мероприятиями от команды.
@ai_for_devs
Мы стараемся быть максимально прозрачными с вами. Чтобы делать качественный контент и развивать канал, нам нужны ресурсы — в том числе финансовые.
Поэтому мы договорились о партнёрстве с Veai. Это российская команда, которая разрабатывает AI-агента для разработчиков — инструмент, помогающий в повседневной работе с кодом.
Совсем недавно у ребят появился бесплатный 30-дневный период, так что можно спокойно попробовать продукт и понять, подходит ли он вам.
Мы будем периодически рассказывать про Veai: делиться возможностями продукта, новостями и мероприятиями от команды.
@ai_for_devs
1👍32❤7🤝7😁6🔥1
⚡️ Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
effort, адаптивное рассуждение и автоматическое сжатие контекста для долгоживущих агентов. Цена осталась прежней. Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
2🔥27👍9❤7🤩5⚡2
⚡️ С разницей в пару минут OpenAI зарелизили свой флагман: GPT-5.3-Codex
Модель объединила кодинг-возможности GPT-5.2-Codex и reasoning GPT-5.2. По заявлению OpenAI, она работает примерно на 25% быстрее и лучше держит контекст в длинных сессиях с инструментами, терминалом и GUI-приложениями.
GPT-5.3-Codex может выполнять задачи часами или днями, при этом пользователь может вмешиваться в процесс: уточнять требования, менять направление работы и получать промежуточные апдейты без перезапуска агента.
Интересный факт: ранние версии модели использовались при её же разработке. Codex помогал отслеживать обучение, анализировать логи, диагностировать баги, масштабировать GPU-кластеры и разбирать аномалии в тестах.
Зато бенчмарки Anthropic и OpenAI сделали красивые, и та и другая модель лидер в своих маркетинговых материалах :D
Ну что, Gemini тоже сегодня ждать?)
@ai_for_devs
Модель объединила кодинг-возможности GPT-5.2-Codex и reasoning GPT-5.2. По заявлению OpenAI, она работает примерно на 25% быстрее и лучше держит контекст в длинных сессиях с инструментами, терминалом и GUI-приложениями.
GPT-5.3-Codex может выполнять задачи часами или днями, при этом пользователь может вмешиваться в процесс: уточнять требования, менять направление работы и получать промежуточные апдейты без перезапуска агента.
Интересный факт: ранние версии модели использовались при её же разработке. Codex помогал отслеживать обучение, анализировать логи, диагностировать баги, масштабировать GPU-кластеры и разбирать аномалии в тестах.
Зато бенчмарки Anthropic и OpenAI сделали красивые, и та и другая модель лидер в своих маркетинговых материалах :D
Ну что, Gemini тоже сегодня ждать?)
@ai_for_devs
2😁31⚡16👍10🔥6❤4🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Не так давно обсуждали Cursor с сотнями автономных агентов, которые написали бразуер на 1млн+ строк кода с нуля. Теперь похожий эксперимент провели и Anthropic, со своей новой моделью.
Исследователь компании запустил 16 экземпляров Claude Opus 4.6, которые автономно, без постоянного участия человека в контуре, написали C-компилятор на Rust, способный собрать Linux kernel.
За две недели работы агенты выдали около 100 000 строк кода и довели компилятор до сборки Linux 6.9 под x86, ARM и RISC-V.
@ai_for_devs
Исследователь компании запустил 16 экземпляров Claude Opus 4.6, которые автономно, без постоянного участия человека в контуре, написали C-компилятор на Rust, способный собрать Linux kernel.
За две недели работы агенты выдали около 100 000 строк кода и довели компилятор до сборки Linux 6.9 под x86, ARM и RISC-V.
@ai_for_devs
1🤯40👍16🔥7⚡4😁3❤2
🙈 Claude Code делает 4% коммитов на GitHub
По данным SemiAnalysis на начало февраля, на Claude Code приходится 4% всех публичных коммитов — рост с почти нулевого уровня; при сохранении текущих тенденций прогнозируется до 20% к концу года.
Возникает вопрос качества этих коммитов. Компилятор из предыдущего поста, кстати, не может скомпилировать Hello World из своего же README файла :)
Ну когда уже нас заменят окончательно!? Хочу на море...
@ai_for_devs
По данным SemiAnalysis на начало февраля, на Claude Code приходится 4% всех публичных коммитов — рост с почти нулевого уровня; при сохранении текущих тенденций прогнозируется до 20% к концу года.
Возникает вопрос качества этих коммитов. Компилятор из предыдущего поста, кстати, не может скомпилировать Hello World из своего же README файла :)
Ну когда уже нас заменят окончательно!? Хочу на море...
@ai_for_devs
😁27👍9🎉7❤3🤯2