AI for Devs – Telegram
AI for Devs
3.53K subscribers
143 photos
37 videos
103 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
🇨🇳 Китайцы снова сделали это: MiniMax-M2 — новая SOTA в опенсорсе для кодинга

Внезапно, но факт: свежая MiniMax-M2 от китайской команды MiniMaxAI догнала Grok 4 Fast и Gemini 2.5 Pro. MoE-модель с всего 10B активных параметров обошла многих топ-игроков — от Claude до Gemini и GLM.

MiniMax-M2 — это компактная, но безумно мощная система, созданная специально для кода и агентов.

Что умеет MiniMax-M2:
Интеллект: #1 среди open-source моделей по метрике Artificial Analysis Intelligence — обходит даже DeepSeek и Kimi.
Кодинг: Лучшие результаты в SWE-Bench, Terminal-Bench и ArtifactsBench — превосходит Claude 4 и Gemini 2.5 Pro.
Агентность: В BrowseComp-тестах M2 находит скрытые источники, планирует цепочки действий и хорошо разбирается в ошибках.
Эффективность: Всего 10B активных параметров → низкие задержки, высокая пропускная способность и дёшево в проде.

В сравнении с топовыми гигантскими моделями:
SWE-Bench Verified: 69.4 против 63.8 у Gemini 2.5 Pro
Terminal-Bench: 46.3 против 36.4 у Claude 4
BrowseComp: 44 против 19.6 у Claude 4.5
• GAIA (text only): 75.7 против 60.2 у Gemini

Да, GPT-5 всё ещё впереди — но MiniMax-M2 догоняет, оставаясь open source.

Источник

@ai_for_devs
🔥17👍63
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Релиз Cursor 2.0 и Composer – новой агентной модели

Команда Cursor представила обновление 2.0 – основной акцент в свежем обновлении на multi-agent интерфейс, в котором несколько моделей пишут код вместе. Кроме того, ребята зарелизили Composer – новую agentic-LLM, которая работает в 4 раза быстрее аналогов.

Что нового в Cursor 2.0:
• Мультиагенты: до 8 агентов работают параллельно над одним запросом
• Браузер: теперь встроен прямо в IDE — агент видит DOM, кликает элементы и проверяет результат в реальном времени
• Voice Mode: добавили возможность голосового ввода (нас ждут новые видео от блогеров из серии "вайбкодинг без рук?"))

Что известно про новую модель Composer:
Она в 4 раза быстрее аналогов и оптимизирована под пошаговые агентные сценарии
По стоимости ($1.25 input / $10 output за 1 млн токенов) сопоставима с GPT-5, но должна работать значительно быстрее
Cursor делают акцент на то, что их модель, в отличие от Claude и Gemini, “понимает” контекст всего проекта через semantic search, а не изучает отдельные файлы

Источник

@ai_for_devs
🔥11👍73
🛡 OpenAI запустили Aardvark — агента на GPT-5, который занимается кибербезопасностью

Он умеет подключаться к репозиториям, находить уязвимости, объяснять, в чём проблема, и предлагать патчи.

Aardvark начинался как внутренний инструмент OpenAI: им пользовались собственные разработчики, чтобы проверять код. После нескольких успешных тестов компанию решили вывести систему наружу — пока в виде приватной беты для партнёров.

Агент не только ищет баги, но и подтверждает их в изолированной среде, чтобы избежать ложных срабатываний. На фоне общей волны “специализированных ИИ-агентов” Aardvark выглядит как логичное продолжение тенденции.

То, что ещё недавно считалось слишком сложным для нейросетей — аудит, безопасность, инженерные проверки — постепенно превращается в зоны, где ИИ хотя бы частично берёт на себя реальную работу. Надеемся, что не только на словах.

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍641
😎 Вышел Cline v3.35 с бесплатной MiniMax M2

В Cline v3.35 подвезли три важных апдейта — нативные вызовы инструментов, редизайн элементов меню и новую суперэффективную модель MiniMax M2, которую временно можно попробовать бесплатно. Про неё мы писали ранее.

Главное изменение — нативные вызовы инструментов. Теперь вместо текстовых конструкций внутри промптов всё идёт через нормальные API-схемы. Это снижает число ошибок вроде “invalid API response” и делает работу стабильнее. По заверениям Cline Модели вроде GPT-5 Codex заметно реже спотыкаются, а задачи можно выполнять параллельно — Cline теперь не ждёт поочерёдного ответа от каждого инструмента.

Меню авторазрешения тоже пережило перезагрузку. Вместо всплывающих окон — встроенный блок с лаконичным дизайном. Получился интерфейс без лишней суеты.

И наконец, MiniMax M2. Модель умеет "думать непрерывно" — пересматривать ход своих рассуждений по мере выполнения запроса. Подходит для сложных задач с несколькими шагами и изменениями контекста. Бесплатна до 7 ноября, лимит — 12 млн токенов в минуту.

Источник
Cline в VS Code
Cline для JetBrains IDE

@ai_for_devs
👍12🔥421
Claude Code снова удивляет — теперь уже в криптографии 😮

Мы уже видели, как языковые модели решают задачки, над которыми профессора чесали головы годами. Видели, как они *не решали* задачу, а просто находили ответ, потому что знали, где копать (и не ленились, в отличие от нас, смертных). А теперь Claude Code от Anthropic залез в криптографию и починил реализацию постквантового алгоритма.

Инженер писал на Go реализацию ML-DSA, всё шло по плану, пока проверки не начали сыпаться с “invalid signature”. Дальше — классика: часы дебага, кофе, отчаяние. И вот Filippo, автор кода, решает: “а пусть Claude посмотрит”. Через несколько минут LLM спокойно отвечает:

Ты дважды взял high bits


И оказывается права! Баг нашёл не эксперт, а языковая модель.

Самое интересное — как именно Claude работал. Он вёл себя, как живой разработчик: ставил printf, гонял тесты, отслеживал неверные значения, искал закономерности. И, что важно, нашёл ошибку быстрее человека.

А под конец Filippo выдал отличную идею:

А что, если бы у нас был инструмент, который автоматически запускал LLM, когда падают тесты, и просто сообщал: “я нашёл причину”? Если модель справилась быстрее — класс, если нет — ничего страшного, продолжаем сами. Такой сценарий звучит куда реалистичнее, чем “сделай PR” или “реши задачу целиком”.


Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥53
🔓 Новые подходы к защите LLM от prompt injection

За прошедние несколько недель вышли две интересные статьи из мира AI-безопасности. Meta AI выкатили концепцию Agents Rule of Two, а вторая команда — из OpenAI, Anthropic и DeepMind — показала, что все современные защиты от jailbreak и prompt injection пробиваются за считаные минуты.

Meta и “Правило двух”

Идея простая и до боли логичная: если ваш агент одновременно (1) получает недостоверные данные, (2) имеет доступ к приватным системам и (3) может менять что-то во внешнем мире — бед не избежать. Meta предлагает разрешать лишь два из трёх свойств на одну сессию. Всё, что дальше — только под присмотром человека.

OpenAI, Anthropic и компания: “всё ломается”

Учёные протестировали 12 популярных систем защиты от prompt injection — и обошли их все, включая те, что считались “непробиваемыми”.

Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование с участием человека — мы обошли 12 современных защит (основанных на разных техниках) с успешностью атак выше 90% в большинстве случаев. При этом многие из этих защит ранее показывали почти нулевой успех атак.


Главный тезис статьи: тестирование с помощью фиксированных примеров (одиночных строк, обходящих систему) не имеет смысла. Реальные атаки адаптивны, итеративны и гораздо мощнее. Это наглядно показывает диаграмма на второй картинке.

–––

Вторая работа производит сильное впечатление и даёт трезвое представление о реальном состоянии защиты LLM. На этом фоне подход Meta с «Правилом двух» выглядит наиболее практичным способом проектировать безопасные системы: он не обещает чудес, но чётко задаёт инженерные границы, пока надёжные средства против prompt injection ещё не созданы.

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113😱2🤯1
🔥 Свыше 1 миллиона бизнес-клиентов по всему миру: OpenAI стал самой быстрорастущей бизнес-платформой в истории!

Компания называет себя самой быстрорастущей бизнес-платформой в истории, и цифры действительно впечатляют. Среди клиентов — Booking, Cisco, T-Mobile, Target, Morgan Stanley, Lowe’s и десятки других корпораций из финансового, розничного и технологического секторов.

Количество рабочих мест в ChatGPT for Work превысило 7 миллионов (рост на 40% за два месяца), а ChatGPT Enterprise — в 9 раз больше, чем год назад. Внедрение идёт быстро, потому что миллионы пользователей уже знакомы с ChatGPT в личных целях — и компании просто масштабируют этот опыт.

Инструменты, которые предоставляет OpenAI для бизнеса:
- Company Knowledge — ChatGPT теперь анализирует данные из Slack, SharePoint, Google Drive и GitHub, используя версию GPT-5, оптимизированную для работы с корпоративными источниками.
- Codex ускоряет разработку: в Cisco время код-ревью сократилось на 50 %.
- AgentKit упрощает создание внутренних AI-агентов — разработка занимает дни, а не месяцы.

По данным Wharton, 75% компаний отмечают положительный ROI от внедрения ИИ, менее 5% — отрицательный. Indeed повысил число откликов на вакансии на 20%, Intercom ускорил выпуск новых функций в разы, а Lowe’s использует GPT-ассистента в 1 700 магазинах.

Источник

Интересно, как обстоит ситуция в России с внедрением AI-инструментов на уровне компаний 🤔
👍6🔥43🤔21🤬1
🆕 Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках:
44,9% на Humanity’s Last Exam — топовый результат среди reasoning-моделей.
60,2% на BrowseComp — лучше людей (человеческий базовый уровень: 29,2%).
71,3% на SWE-Bench Verified — мощный апгрейд в агентном кодинге.
Поддерживает INT4-квантование без потери точности и даёт ×2 ускорение вывода.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля (можно потыкать в релизной статье). Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне.

На видео – пример результата генерации кода для популярной библиотеки визуализации.

Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6🤩32
🔥 OpenAI выпустила GPT-5 Codex-Mini: в 4 раза дешевле, почти без потерь в мощности

OpenAI представила новую модель для разработчиков — GPT-5-Codex-Mini. Это упрощённая версия Codex, которая позволяет выполнять примерно в 4 раза больше запросов, но за счёт небольшой потери точности.

Codex-Mini предназначен для простых задач и для случаев, когда пользователи приближаются к лимиту запросов. При достижении 90% лимита система автоматически предложит перейти на Mini, чтобы избежать остановки работы.

Ключевые факты:
• Объём использования увеличен примерно в 4 раза по сравнению с GPT-5-Codex.
• Незначительное снижение возможностей из-за меньшего размера модели.
• Оптимизация использования GPU для повышения эффективности.
• Пользователи Plus, Business и Edu получили на 50% выше лимиты, а Pro и Enterprise — приоритетную обработку запросов.

OpenAI позиционирует Codex-Mini как инструмент для рутинных и второстепенных задач. Основная модель остаётся для более сложных сценариев, где важна точность и контекст.

Источник

@ai_for_devs
👍9🔥421
В блоге Microsoft вышла интересная заметка

Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.

Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.

Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.

Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.

Источник

@ai_for_devs
👍12🔥32
🦩 Реверс-инжиниринг Codex CLI, или как заставить GPT-5-Codex-Mini нарисовать пеликана

На днях OpenAI выкатили GPT-5-Codex-Mini, компактную версию своего «старшего брата». Пока пощупать её можно только в Codex CLI и плагине для VS Code. Ни API, ни публичного доступа. Но, зная энтузиастов, ждать «официального релиза» никто не собирается. Многим хочется потестить модельки в ваакуме, без привязки к конкретному инструменту.

Да, прямой доступ к модели прикручен, но Codex CLI — open source под лицензией Apache 2.0. То есть — можно ковыряться, улучшать, допиливать.

Саймон Уиллиссон пошёл по пути хакера-романтика: запустил CLI в «опасном режиме» и велел Codex самому собрать себя из исходников на Rust — языке, в котором он, по его же признанию, «не в зуб ногой». Здесь всё прошло отлично.

Дальше — веселее. После пары итераций и добавления команды codex prompt (которая напрямую шлёт запросы к скрытому API), автор наконец-то добился своего: модель нарисовала SVG-пеликана на велосипеде.

По заверениям OpenAI, Mini-версия почти не уступает старшему брату, но, глядя на пеликана, хочется слегка усомниться)

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9👍5🔥3
⚡️ GPT-5.1 вышел: умнее, теплее, разговорчивее

Вчера ночью OpenAI выкатила крупное обновление — модели GPT-5.1 Instant и GPT-5.1 Thinking, плюс новую систему тонов и персонализации. Обновление уже раскатывают, сначала на платных пользователях.

GPT-5.1 Instant
* Более тёплый и разговорчивый по умолчанию.
* Чётко следует инструкциям (попросили 6 слов — получите 6).
* Адаптивное рассуждение: «думает» только когда нужно.
* Лучше в математике и кодинге.

GPT-5.1 Thinking
* Дольше размышляет над сложными задачами, быстрее — над простыми.
* Объясняет яснее, меньше жаргона.
* Звучит человечнее.

Новые настройки ChatGPT
* Новые стили: Professional, Candid, Quirky, обновлены старые.
* Может сам предлагать поменять тон.
* Экспериментальная тонкая настройка: лаконичность, эмодзи, теплота и др.
* Все настройки работают во всех чатах.

Наши первые впечатления: Instant — реально быстрее, но качество пока прыгает. Thinking — медленнее, но не всегда точнее. Думаем, что будут допиливать незаметно "наживую".

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍322👏2
У Anthropic снова тревожные новости

Они заявили, что зафиксировали первую крупную кибератаку, почти полностью выполненную ИИ. История звучит громко, но вот фактов, которые можно проверить, в публичном отчёте пока нет.

По их версии, некая группа, предположительно связаная с Китаем (хакеры из России ушли на второй план?)), взломала Claude Code, убедила модель, что она работает в сфере кибербеза, и отправила её штурмовать около 30 организаций. ИИ сам искал уязвимости, писал эксплойты, тягал данные и делал сводки для операторов.

Anthropic утверждает, что модель закрыла 80–90% работы.

@ai_for_devs
😁14🔥9👍62😢2
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: на сайте AI World Clocks девять ИИ-моделей каждую минуту получают простейшее задание — сделать обычные аналоговые часы на HTML и CSS.

Казалось бы, что может быть сложного?)
😁31🔥112👏1