OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).
Ключевые выводы 👇
@ai_for_devs
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).
Ключевые выводы 👇
🟣 Open source закрепился на ~30% и привёл с собой Китай. Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.🟣 "Medium is the new small": рынок смещается к 15–70B. Маленьких моделей много, но их доля в использовании падает. Реальный рост — в medium-классе (15–70B): Qwen2.5 Coder 32B, Mistral Small 3, GPT-OSS 20B.🟣 Главные use-cases для OSS: roleplay и кодинг. У открытых моделей: Roleplay ≈ 50%+ токенов: игровые сценарии, персонажи, фанфик-миры, «длинные» диалоги. Programming — второй по величине сегмент. Китайские OSS сдвинуты ещё сильнее в практику: у них roleplay уже не доминирует, а кодинг + технологии = ~39% нагрузки.🟣 Agentic inference стал нормой, а не экспериментом. Reasoning-модели обслуживают уже >50% всех токенов. Растёт доля запросов с tool-calling, появляются модели заточенные «под агентность». Средний запрос стал длинным: prompt вырос ~с 1.5K до >6K токенов, completion почти утроился.🟣 Программирование стало "killer-категорией": 11% → >50% токенов. В начале 2025 года программирование ≈ 11%, в последние недели — уже больше половины трафика. Лидирует Claude: стабильно >60%. OpenAI вырос с ~2% до ~8%, Google удерживает ~15%. OSS (Qwen, Mistral, DeepSeek и др.) активно захватывают mid-tier, MiniMax растёт особенно быстро.🟣 Roleplay и кодинг по объёму сопоставимы. Если вы думали, что LLM — это «про работу и B2B», данные показывают: развлекательные/эмоциональные сценарии не менее масштабны.🟣 География: Азия резко догоняет, язык почти полностью английский. По континентам (share по токенам): Северная Америка: 47%, Азия: ~29% (было ~13%, стало ~31% в неделях под конец), Европа: ~21%. По языкам: английский ≈ 83%, далее упоминаются китайский, русский, испанский.🟣 Рынок почти не чувствителен к цене. Дорогие модели вроде Claude Sonnet стоят около $2 за 1M токенов и всё равно получают огромные объёмы, дешёвые «рабочие лошадки» вроде Gemini Flash и DeepSeek V3 стоят меньше $0.4 и загружаются сопоставимо, ультрадорогие GPT-4/5 Pro по $30–35 используются для узких задач, а сверхдешёвые OSS-модели за $0.03–0.05 остаются нишевыми. Цена сама по себе не решает: критичны качество, стабильность и интеграции.🟣 "Glass Slipper": когда модель идеально попадает в задачу, её уже не меняют. У frontier-моделей есть короткий момент, когда они впервые закрывают болезненный workload и формируют «фундаментальную» когорту, которая остаётся надолго. Так случилось у Claude 4 Sonnet и Gemini 2.5 Pro с retention около 40% на 5-й месяц. У моделей без такого момента (например, Gemini 2.0 Flash или Llama 4 Maverick) устойчивых когорт не возникает. У DeepSeek заметен «бумеранг»: пользователи пробуют альтернативы и возвращаются, подтверждая, что именно он лучше решает их задачу.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍16🔥9❤4
Media is too big
VIEW IN TELEGRAM
В версии Cursor 2.2 появился отдельный режим работы агента, основанный не на угадывании фиксов, а на сборе реальных рантайм-логов и обязательной человеческой верификации.
Работает это следующим образом:
1. Агент генерирует несколько гипотез о причинах бага, а не сразу пишет патч
2. Сам вставляет логи в код, чтобы проверить свои гипотезы в рантайме
3. Как только баг воспроизвелся, разработчик должен его подтвердить
4. На основе воспроизведенного бага формируется точечный фикс — обычно 2–3 строки вместо перелопачивания всего проекта
5. Финальная проверка тоже через человека: если баг не исчез, агент добавляет больше логов и возвращается на первый шаг
А ещё представили фичу multi-agent judging: при параллельном запуске нескольких агентов система сама выбирает лучшую реализацию и объясняет, почему выбрала именно её.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤6🔥5
⚡️ OpenAI представили GPT-5.2
🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified
🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.
GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.
По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.
Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)
@ai_for_devs
GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.
По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.
Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15🔥7❤4⚡2
Нашли бесплатный плагин для VS Code с LLMками (DeepSeek, Gemini, Qwen).
Поддерживает агентный режим и есть утилита для CLI.
Забираем по ссылке.
@ai_for_devs
Поддерживает агентный режим и есть утилита для CLI.
Забираем по ссылке.
@ai_for_devs
1👍23🔥9❤8🤬7⚡2
За последнюю неделю несколько новостей было опубликовано благодаря вашим сообщениям в личку канала. Ещё раз спасибо!
Если наткнулись на интересный топик/новость/обсуждение – скидывайте, будем рады рассказать об этом тут и на Хабре.
@ai_for_devs
Если наткнулись на интересный топик/новость/обсуждение – скидывайте, будем рады рассказать об этом тут и на Хабре.
@ai_for_devs
11👍22🔥4❤3
Подготовили перевод статьи о том, почему стоимость разработки может упасть на 90% — и как агентные инструменты уже меняют экономику создания софта.
Когда цена падает на порядок, каждая Excel-таблица внезапно становится потенциальным SaaS. Компании, которые раньше могли позволить себе автоматизировать 5 процессов, теперь смогут автоматизировать 50.
На этом фоне единственным устойчивым преимуществом становится экспертиза в домене. Пара «инженер + глубокое понимание бизнеса» превращается в сверхпродуктивный тандем.
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
Проект, который занимал месяц, теперь занимает неделю. Время на продумывание остается примерно тем же, но время реализации схлопнулось. И с меньшими командами включается обратная версия Закона Брукса: вместо того чтобы накладные расходы на коммуникацию росли с численностью команды, они исчезают. Небольшая группа людей внезапно может делать на порядок больше.
Когда цена падает на порядок, каждая Excel-таблица внезапно становится потенциальным SaaS. Компании, которые раньше могли позволить себе автоматизировать 5 процессов, теперь смогут автоматизировать 50.
На этом фоне единственным устойчивым преимуществом становится экспертиза в домене. Пара «инженер + глубокое понимание бизнеса» превращается в сверхпродуктивный тандем.
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
Хабр
Упадёт ли стоимость разработки софта на 90%?
Команда AI for Devs подготовила перевод статьи о том, как агентные инструменты разработки меняют экономику создания ПО. Автор утверждает: трудозатраты на выпуск продукта стремительно падают, скрытый...
1🔥12👍8❤4
Резонансное расследование показало: популярные VPN-расширения для браузеров долгое время собирали и продавали переписки пользователей с ИИ-чатами — включая ChatGPT, Claude и Gemini.
Речь не о ноунеймах. Urban VPN Proxy — 6+ млн установок, рейтинг 4.7, значок Featured(!) от Google и Microsoft. Бесплатный VPN, обещающий приватность. На практике — полный перехват ИИ-диалогов.
Расширения внедряли скрипты прямо в страницы ChatGPT, Claude и других ИИ-платформ и перехватывали сетевые запросы на уровне браузера. Это позволяло им видеть весь диалог целиком — промпты, ответы, метаданные и идентификаторы сессий — и отправлять эти данные на собственные серверы и дата-брокерам. Сбор работал постоянно, не зависел от включённого VPN и не отключался в настройках: остановить его можно было только удалением расширения.
Механизм добавили тихим обновлением в июле 2025 года, которое автоматически установилось у пользователей Chrome и Edge. Сбор данных при этом маскировался под функцию «AI-защиты»: она якобы предупреждала о рисках, но на практике не мешала передаче диалогов третьим сторонам. Один и тот же код использовался в нескольких расширениях со статусом Featured, затронув суммарно более 8 миллионов пользователей.
@ai_for_devs
Речь не о ноунеймах. Urban VPN Proxy — 6+ млн установок, рейтинг 4.7, значок Featured(!) от Google и Microsoft. Бесплатный VPN, обещающий приватность. На практике — полный перехват ИИ-диалогов.
Расширения внедряли скрипты прямо в страницы ChatGPT, Claude и других ИИ-платформ и перехватывали сетевые запросы на уровне браузера. Это позволяло им видеть весь диалог целиком — промпты, ответы, метаданные и идентификаторы сессий — и отправлять эти данные на собственные серверы и дата-брокерам. Сбор работал постоянно, не зависел от включённого VPN и не отключался в настройках: остановить его можно было только удалением расширения.
Механизм добавили тихим обновлением в июле 2025 года, которое автоматически установилось у пользователей Chrome и Edge. Сбор данных при этом маскировался под функцию «AI-защиты»: она якобы предупреждала о рисках, но на практике не мешала передаче диалогов третьим сторонам. Один и тот же код использовался в нескольких расширениях со статусом Featured, затронув суммарно более 8 миллионов пользователей.
Если продукт бесплатный и непонятно, на чём он зарабатывает – зарабатывает он на тебе 🙂
@ai_for_devs
Хабр
Как «приватные» VPN-расширения слили переписки 8 миллионов пользователей с ChatGPT и Claude
Команда AI for Devs подготовила перевод резонансного расследования о том, как "приватные" VPN-расширения на самом деле зарабатывают на ваших ИИ-переписках. 8 миллионов пользователей, Featured-бейджи...
1😱15👍13🤯6❤1
😎 Вайбкодим с плагином Kilo Code в VS Code и IntelliJ IDEA из России
В новой статье разбираемся, как организовать вайб-кодинг с плагином Kilo Code в VS Code и IntelliJ IDEA из России.
Пошагово настраиваем Kilo Code через RouterAI, подключаем Claude, GPT, DeepSeek и другие модели, разбираем роли агента, diff-патчи, правила проекта и нюансы работы с контекстом.
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
В новой статье разбираемся, как организовать вайб-кодинг с плагином Kilo Code в VS Code и IntelliJ IDEA из России.
Пошагово настраиваем Kilo Code через RouterAI, подключаем Claude, GPT, DeepSeek и другие модели, разбираем роли агента, diff-патчи, правила проекта и нюансы работы с контекстом.
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
👍18🔥4❤2
⚡️ Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка
По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.
При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.
@ai_for_devs
По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.
При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.
@ai_for_devs
❤12👍9🔥5⚡2
⚡️ OpenAI выпустили GPT-5.2-Codex
Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:
• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах
Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.
Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.
Карточка модели
@ai_for_devs
Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:
• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах
Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.
Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.
Карточка модели
@ai_for_devs
1👍19🔥6❤4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?
Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями(без математики тоже не обошлось 🫠) .
Вот как сам автор описал свою статью и мы с ним полностью согласны:
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями
Вот как сам автор описал свою статью и мы с ним полностью согласны:
Не удовлетворившись ответами в документации вендоров ПО для разработчиков, которые хорошо объясняют, как пользоваться кэшированием промптов, но аккуратно обходят вопрос о том, что именно кэшируется, я решил копнуть глубже.
Я нырнул в кроличью нору устройства LLM, пока не понял, какие именно данные провайдеры кэшируют, для чего они используются и как это делает всё быстрее и дешевле для всех.
К концу этой статьи вы:
– глубже поймёте, как работают LLM
– сформируете новую интуицию о том, почему LLM устроены именно так
– разберётесь, какие именно нули и единицы кэшируются и как это снижает стоимость ваших запросов к LLM
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
51🔥16👍9👏2