NEW BOT Телеграм, страница

В 2020 году, ещё до ChatGPT, OpenAI и Johns Hopkins опубликовали работу Scaling Laws for Neural Language Models.

В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.

Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.

Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.

Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.

@ai_for_devs

👍27❤6🔥4💯3

4.98K views14:51

AI for Devs

🥳

Claude Sonnet 5. Релиз близко

В логах Vertex AI засветился идентификатор claude-sonnet-5@20260203. Такие ID обычно появляются за несколько дней до релиза.

Инфлюенсеры и инсайдеры в X вангуют на следующее:
* Показатели по SWE-Bench — 82.1% (у Claude Opus 4.5 сейчас 80.9%)
* Цены останутся прежними: $3 за 1M входных токенов и $15 за 1M выходных
* Контекст — 1 млн токенов (у Sonnet 4.5 был доступен контекст в 1 млн токенов, но в beta-режиме)

Если релиз состоится на этой неделе, то Anthropic отлично держит темп: новые Sonnet выходят примерно раз в 4 месяца, а Opus — раз в полгода.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥31👍18❤5⚡5🤩2

4.16K views07:52

Вчера ночью OpenAI выкатили десктопное приложение Codex под macOS. Linux и Windows, как обычно, обещают позже. Atlas, к слову, так и не добрался до других платформ)) А прошло почти три месяца.

Я в основном пишу код в IDE, а агентов гоняю из терминала. Поэтому было интересно потыкать Codex вне CLI.

Понравилось. Визуальный доступ к Skills и настройкам агента заметно проще, дерево диалогов читается лучше и привычнее (как в старом добром ChatGPT).

Есть часть IDE-фишек: коммит, запуск проекта, просмотр диффа и встроенный терминал. Для всего, что сложнее, предлагают открыть IDE.

Также добавили планирование автоматизаций, пока что в beta режиме. Можно ставить фоновые задачи по расписанию, например регулярные CI-проверки, суммаризация коммитов для дейлика!!, апдейт ченджлога и так далее.

Для Free и Go тарифов временно открыли бесплатный доступ, остальным удвоили лимиты на два месяца. Неплохой повод наконец попробовать Codex, если вы всё еще не.

@ai_for_devs

1👍24🔥11❤5🙏5🤩1

3.35K views07:19

AI for Devs

🇨🇳 Китайцы зарелизили Qwen3-Coder-Next

В основе 80B MoE-модель для агентного кодинга и локального использования.

Активных параметров всего 3B, немного, но по агентным бенчмаркам она показывает уровень моделей с 10–20× большим количеством активных параметров.

Контекст — 256K, можно запускать локально, понадобится 46 ГБ ОЗУ/видеопамяти/unified памяти (85 ГБ для 8-бит).

Моделька на Hugging Face.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍27🔥11🤩6❤2⚡2

3.15K views17:47

AI for Devs

В свежей работе Anthropic предлагают разделить ошибки LLM на две составляющие.

Bias — когда модель систематически делает неправильное.
Variance — когда результат сильно меняется от запуска к запуску.

Долю variance авторы используют как количественную меру incoherence — практической непредсказуемости.

Дальше эту непредсказуемость проверяют на прикладных сценариях: QA-бенчмарки, SWE-Bench, агентные цепочки действий. Картина повторяется везде. По мере роста длины цепочки действий агент всё чаще теряет нить задачи, делает лишние шаги или начинает себе противоречить. Это наблюдается у всех моделей, без исключений.

Увеличение размера модели помогает, но только до определённого предела. На простых задачах более крупные модели действительно ведут себя стабильнее. На сложных эффект исчезает или меняет знак: мощные модели чаще уходят в длинные, нестабильные рассуждения, которые повышают variance.

Для прикладных систем это означает, что большинство отказов будет выглядеть не как чёткий баг, а как хаотичное поведение на длинной дистанции. Проблема чаще не в том, что агент решает сделать, а в том, насколько воспроизводимо он это делает.

TL;DR: Предсказуемая ошибка лучше непредсказуемого успеха.

@ai_for_devs

1👍25🔥6💯5❤3🤯1

2.83K views11:25

AI for Devs

🤝 Veai — технологический партнёр AI for Devs

Мы стараемся быть максимально прозрачными с вами. Чтобы делать качественный контент и развивать канал, нам нужны ресурсы — в том числе финансовые.

Поэтому мы договорились о партнёрстве с Veai. Это российская команда, которая разрабатывает AI-агента для разработчиков — инструмент, помогающий в повседневной работе с кодом.

Совсем недавно у ребят появился бесплатный 30-дневный период, так что можно спокойно попробовать продукт и понять, подходит ли он вам.

Мы будем периодически рассказывать про Veai: делиться возможностями продукта, новостями и мероприятиями от команды.

@ai_for_devs

1👍32❤7🤝7😁6🔥1

2.56K views10:33

AI for Devs

⚡️ Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic

Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.

По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.

Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.

Для разработчиков добавили уровни effort, адаптивное рассуждение и автоматическое сжатие контекста для долгоживущих агентов. Цена осталась прежней.

Модель уже доступна в интерфейсе Claude и на RouterAI.

@ai_for_devs

2🔥27👍9❤7🤩5⚡2

2.72K views17:57

AI for Devs

⚡️ С разницей в пару минут OpenAI зарелизили свой флагман: GPT-5.3-Codex

Модель объединила кодинг-возможности GPT-5.2-Codex и reasoning GPT-5.2. По заявлению OpenAI, она работает примерно на 25% быстрее и лучше держит контекст в длинных сессиях с инструментами, терминалом и GUI-приложениями.

GPT-5.3-Codex может выполнять задачи часами или днями, при этом пользователь может вмешиваться в процесс: уточнять требования, менять направление работы и получать промежуточные апдейты без перезапуска агента.

Интересный факт: ранние версии модели использовались при её же разработке. Codex помогал отслеживать обучение, анализировать логи, диагностировать баги, масштабировать GPU-кластеры и разбирать аномалии в тестах.

Зато бенчмарки Anthropic и OpenAI сделали красивые, и та и другая модель лидер в своих маркетинговых материалах :D

Ну что, Gemini тоже сегодня ждать?)

@ai_for_devs

2😁31⚡16👍10🔥6❤4🤩1

2.74K views18:24

AI for Devs

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Не так давно обсуждали Cursor с сотнями автономных агентов, которые написали бразуер на 1млн+ строк кода с нуля. Теперь похожий эксперимент провели и Anthropic, со своей новой моделью.

Исследователь компании запустил 16 экземпляров Claude Opus 4.6, которые автономно, без постоянного участия человека в контуре, написали C-компилятор на Rust, способный собрать Linux kernel.

За две недели работы агенты выдали около 100 000 строк кода и довели компилятор до сборки Linux 6.9 под x86, ARM и RISC-V.

@ai_for_devs

1🤯40👍16🔥7⚡4😁3❤2

2.68K views07:07

AI for Devs

🙈 Claude Code делает 4% коммитов на GitHub

По данным SemiAnalysis на начало февраля, на Claude Code приходится 4% всех публичных коммитов — рост с почти нулевого уровня; при сохранении текущих тенденций прогнозируется до 20% к концу года.

Возникает вопрос качества этих коммитов. Компилятор из предыдущего поста, кстати, не может скомпилировать Hello World из своего же README файла :)

Ну когда уже нас заменят окончательно!? Хочу на море...

@ai_for_devs

😁27👍9🎉7❤3🤯2

2.11K views11:15

About

Blog

Apps

Platform