AI for Devs – Telegram
AI for Devs
3.77K subscribers
148 photos
45 videos
109 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
Media is too big
VIEW IN TELEGRAM
🪲 Cursor представили Debug Mode

В версии Cursor 2.2 появился отдельный режим работы агента, основанный не на угадывании фиксов, а на сборе реальных рантайм-логов и обязательной человеческой верификации.

Работает это следующим образом:

1. Агент генерирует несколько гипотез о причинах бага, а не сразу пишет патч
2. Сам вставляет логи в код, чтобы проверить свои гипотезы в рантайме
3. Как только баг воспроизвелся, разработчик должен его подтвердить
4. На основе воспроизведенного бага формируется точечный фикс — обычно 2–3 строки вместо перелопачивания всего проекта
5. Финальная проверка тоже через человека: если баг не исчез, агент добавляет больше логов и возвращается на первый шаг

А ещё представили фичу multi-agent judging: при параллельном запуске нескольких агентов система сама выбирает лучшую реализацию и объясняет, почему выбрала именно её.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍256🔥5
⚡️ OpenAI представили GPT-5.2

🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified
🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.

GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.

По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.

Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15🔥742
Нашли бесплатный плагин для VS Code с LLMками (DeepSeek, Gemini, Qwen).

Поддерживает агентный режим и есть утилита для CLI.

Забираем по ссылке.

@ai_for_devs
1👍23🔥98🤬72
За последнюю неделю несколько новостей было опубликовано благодаря вашим сообщениям в личку канала. Ещё раз спасибо!

Если наткнулись на интересный топик/новость/обсуждение – скидывайте, будем рады рассказать об этом тут и на Хабре.

@ai_for_devs
11👍22🔥43
Подготовили перевод статьи о том, почему стоимость разработки может упасть на 90% — и как агентные инструменты уже меняют экономику создания софта.

Проект, который занимал месяц, теперь занимает неделю. Время на продумывание остается примерно тем же, но время реализации схлопнулось. И с меньшими командами включается обратная версия Закона Брукса: вместо того чтобы накладные расходы на коммуникацию росли с численностью команды, они исчезают. Небольшая группа людей внезапно может делать на порядок больше.


Когда цена падает на порядок, каждая Excel-таблица внезапно становится потенциальным SaaS. Компании, которые раньше могли позволить себе автоматизировать 5 процессов, теперь смогут автоматизировать 50.

На этом фоне единственным устойчивым преимуществом становится экспертиза в домене. Пара «инженер + глубокое понимание бизнеса» превращается в сверхпродуктивный тандем.

📚 Читайте и комментируйте на Хабр.

@ai_for_devs
1🔥12👍84
😁49👍11💯8😱3🤔2
Резонансное расследование показало: популярные VPN-расширения для браузеров долгое время собирали и продавали переписки пользователей с ИИ-чатами — включая ChatGPT, Claude и Gemini.

Речь не о ноунеймах. Urban VPN Proxy — 6+ млн установок, рейтинг 4.7, значок Featured(!) от Google и Microsoft. Бесплатный VPN, обещающий приватность. На практике — полный перехват ИИ-диалогов.

Расширения внедряли скрипты прямо в страницы ChatGPT, Claude и других ИИ-платформ и перехватывали сетевые запросы на уровне браузера. Это позволяло им видеть весь диалог целиком — промпты, ответы, метаданные и идентификаторы сессий — и отправлять эти данные на собственные серверы и дата-брокерам. Сбор работал постоянно, не зависел от включённого VPN и не отключался в настройках: остановить его можно было только удалением расширения.

Механизм добавили тихим обновлением в июле 2025 года, которое автоматически установилось у пользователей Chrome и Edge. Сбор данных при этом маскировался под функцию «AI-защиты»: она якобы предупреждала о рисках, но на практике не мешала передаче диалогов третьим сторонам. Один и тот же код использовался в нескольких расширениях со статусом Featured, затронув суммарно более 8 миллионов пользователей.

Если продукт бесплатный и непонятно, на чём он зарабатывает – зарабатывает он на тебе 🙂


@ai_for_devs
1😱16👍13🤯62
😎 Вайбкодим с плагином Kilo Code в VS Code и IntelliJ IDEA из России

В новой статье разбираемся, как организовать вайб-кодинг с плагином Kilo Code в VS Code и IntelliJ IDEA из России.

Пошагово настраиваем Kilo Code через RouterAI, подключаем Claude, GPT, DeepSeek и другие модели, разбираем роли агента, diff-патчи, правила проекта и нюансы работы с контекстом.

📚 Читайте и комментируйте на Хабр.

@ai_for_devs
👍18🔥42🤯1
⚡️ Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка

По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.

При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.

Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.

@ai_for_devs
12👍9🔥52
⚡️ OpenAI выпустили GPT-5.2-Codex

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах

Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.

Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.

Карточка модели

@ai_for_devs
1👍20🔥64😁1
🔥 Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями (без математики тоже не обошлось 🫠).

Вот как сам автор описал свою статью и мы с ним полностью согласны:

Не удовлетворившись ответами в документации вендоров ПО для разработчиков, которые хорошо объясняют, как пользоваться кэшированием промптов, но аккуратно обходят вопрос о том, что именно кэшируется, я решил копнуть глубже.

Я нырнул в кроличью нору устройства LLM, пока не понял, какие именно данные провайдеры кэшируют, для чего они используются и как это делает всё быстрее и дешевле для всех.

К концу этой статьи вы:

– глубже поймёте, как работают LLM
– сформируете новую интуицию о том, почему LLM устроены именно так
– разберётесь, какие именно нули и единицы кэшируются и как это снижает стоимость ваших запросов к LLM


📚 Читайте и комментируйте на Хабр.

@ai_for_devs
51🔥20👍10👏2