😎 Вышел Cline v3.35 с бесплатной MiniMax M2
В Cline v3.35 подвезли три важных апдейта — нативные вызовы инструментов, редизайн элементов меню и новую суперэффективную модель MiniMax M2, которую временно можно попробовать бесплатно. Про неё мы писали ранее.
Главное изменение — нативные вызовы инструментов. Теперь вместо текстовых конструкций внутри промптов всё идёт через нормальные API-схемы. Это снижает число ошибок вроде “invalid API response” и делает работу стабильнее. По заверениям Cline Модели вроде GPT-5 Codex заметно реже спотыкаются, а задачи можно выполнять параллельно — Cline теперь не ждёт поочерёдного ответа от каждого инструмента.
Меню авторазрешения тоже пережило перезагрузку. Вместо всплывающих окон — встроенный блок с лаконичным дизайном. Получился интерфейс без лишней суеты.
И наконец, MiniMax M2. Модель умеет "думать непрерывно" — пересматривать ход своих рассуждений по мере выполнения запроса. Подходит для сложных задач с несколькими шагами и изменениями контекста. Бесплатна до 7 ноября, лимит — 12 млн токенов в минуту.
Источник
Cline в VS Code
Cline для JetBrains IDE
@ai_for_devs
В Cline v3.35 подвезли три важных апдейта — нативные вызовы инструментов, редизайн элементов меню и новую суперэффективную модель MiniMax M2, которую временно можно попробовать бесплатно. Про неё мы писали ранее.
Главное изменение — нативные вызовы инструментов. Теперь вместо текстовых конструкций внутри промптов всё идёт через нормальные API-схемы. Это снижает число ошибок вроде “invalid API response” и делает работу стабильнее. По заверениям Cline Модели вроде GPT-5 Codex заметно реже спотыкаются, а задачи можно выполнять параллельно — Cline теперь не ждёт поочерёдного ответа от каждого инструмента.
Меню авторазрешения тоже пережило перезагрузку. Вместо всплывающих окон — встроенный блок с лаконичным дизайном. Получился интерфейс без лишней суеты.
И наконец, MiniMax M2. Модель умеет "думать непрерывно" — пересматривать ход своих рассуждений по мере выполнения запроса. Подходит для сложных задач с несколькими шагами и изменениями контекста. Бесплатна до 7 ноября, лимит — 12 млн токенов в минуту.
Источник
Cline в VS Code
Cline для JetBrains IDE
@ai_for_devs
👍12🔥4⚡2❤1
Claude Code снова удивляет — теперь уже в криптографии 😮
Мы уже видели, как языковые модели решают задачки, над которыми профессора чесали головы годами. Видели, как они *не решали* задачу, а просто находили ответ, потому что знали, где копать (и не ленились, в отличие от нас, смертных). А теперь Claude Code от Anthropic залез в криптографию и починил реализацию постквантового алгоритма.
Инженер писал на Go реализацию ML-DSA, всё шло по плану, пока проверки не начали сыпаться с
И оказывается права! Баг нашёл не эксперт, а языковая модель.
Самое интересное — как именно Claude работал. Он вёл себя, как живой разработчик: ставил
А под конец Filippo выдал отличную идею:
Источник
@ai_for_devs
Мы уже видели, как языковые модели решают задачки, над которыми профессора чесали головы годами. Видели, как они *не решали* задачу, а просто находили ответ, потому что знали, где копать (и не ленились, в отличие от нас, смертных). А теперь Claude Code от Anthropic залез в криптографию и починил реализацию постквантового алгоритма.
Инженер писал на Go реализацию ML-DSA, всё шло по плану, пока проверки не начали сыпаться с
“invalid signature”. Дальше — классика: часы дебага, кофе, отчаяние. И вот Filippo, автор кода, решает: “а пусть Claude посмотрит”. Через несколько минут LLM спокойно отвечает: Ты дважды взял high bits
И оказывается права! Баг нашёл не эксперт, а языковая модель.
Самое интересное — как именно Claude работал. Он вёл себя, как живой разработчик: ставил
printf, гонял тесты, отслеживал неверные значения, искал закономерности. И, что важно, нашёл ошибку быстрее человека.А под конец Filippo выдал отличную идею:
А что, если бы у нас был инструмент, который автоматически запускал LLM, когда падают тесты, и просто сообщал: “я нашёл причину”? Если модель справилась быстрее — класс, если нет — ничего страшного, продолжаем сами. Такой сценарий звучит куда реалистичнее, чем “сделай PR” или “реши задачу целиком”.
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥5❤3
За прошедние несколько недель вышли две интересные статьи из мира AI-безопасности. Meta AI выкатили концепцию Agents Rule of Two, а вторая команда — из OpenAI, Anthropic и DeepMind — показала, что все современные защиты от jailbreak и prompt injection пробиваются за считаные минуты.
Meta и “Правило двух”
Идея простая и до боли логичная: если ваш агент одновременно (1) получает недостоверные данные, (2) имеет доступ к приватным системам и (3) может менять что-то во внешнем мире — бед не избежать. Meta предлагает разрешать лишь два из трёх свойств на одну сессию. Всё, что дальше — только под присмотром человека.
OpenAI, Anthropic и компания: “всё ломается”
Учёные протестировали 12 популярных систем защиты от prompt injection — и обошли их все, включая те, что считались “непробиваемыми”.
Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование с участием человека — мы обошли 12 современных защит (основанных на разных техниках) с успешностью атак выше 90% в большинстве случаев. При этом многие из этих защит ранее показывали почти нулевой успех атак.
Главный тезис статьи: тестирование с помощью фиксированных примеров (одиночных строк, обходящих систему) не имеет смысла. Реальные атаки адаптивны, итеративны и гораздо мощнее. Это наглядно показывает диаграмма на второй картинке.
–––
Вторая работа производит сильное впечатление и даёт трезвое представление о реальном состоянии защиты LLM. На этом фоне подход Meta с «Правилом двух» выглядит наиболее практичным способом проектировать безопасные системы: он не обещает чудес, но чётко задаёт инженерные границы, пока надёжные средства против prompt injection ещё не созданы.
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3😱2🤯1
🔥 Свыше 1 миллиона бизнес-клиентов по всему миру: OpenAI стал самой быстрорастущей бизнес-платформой в истории!
Компания называет себя самой быстрорастущей бизнес-платформой в истории, и цифры действительно впечатляют. Среди клиентов — Booking, Cisco, T-Mobile, Target, Morgan Stanley, Lowe’s и десятки других корпораций из финансового, розничного и технологического секторов.
Количество рабочих мест в ChatGPT for Work превысило 7 миллионов (рост на 40% за два месяца), а ChatGPT Enterprise — в 9 раз больше, чем год назад. Внедрение идёт быстро, потому что миллионы пользователей уже знакомы с ChatGPT в личных целях — и компании просто масштабируют этот опыт.
Инструменты, которые предоставляет OpenAI для бизнеса:
- Company Knowledge — ChatGPT теперь анализирует данные из Slack, SharePoint, Google Drive и GitHub, используя версию GPT-5, оптимизированную для работы с корпоративными источниками.
- Codex ускоряет разработку: в Cisco время код-ревью сократилось на 50 %.
- AgentKit упрощает создание внутренних AI-агентов — разработка занимает дни, а не месяцы.
По данным Wharton, 75% компаний отмечают положительный ROI от внедрения ИИ, менее 5% — отрицательный. Indeed повысил число откликов на вакансии на 20%, Intercom ускорил выпуск новых функций в разы, а Lowe’s использует GPT-ассистента в 1 700 магазинах.
Источник
Интересно, как обстоит ситуция в России с внедрением AI-инструментов на уровне компаний 🤔
Компания называет себя самой быстрорастущей бизнес-платформой в истории, и цифры действительно впечатляют. Среди клиентов — Booking, Cisco, T-Mobile, Target, Morgan Stanley, Lowe’s и десятки других корпораций из финансового, розничного и технологического секторов.
Количество рабочих мест в ChatGPT for Work превысило 7 миллионов (рост на 40% за два месяца), а ChatGPT Enterprise — в 9 раз больше, чем год назад. Внедрение идёт быстро, потому что миллионы пользователей уже знакомы с ChatGPT в личных целях — и компании просто масштабируют этот опыт.
Инструменты, которые предоставляет OpenAI для бизнеса:
- Company Knowledge — ChatGPT теперь анализирует данные из Slack, SharePoint, Google Drive и GitHub, используя версию GPT-5, оптимизированную для работы с корпоративными источниками.
- Codex ускоряет разработку: в Cisco время код-ревью сократилось на 50 %.
- AgentKit упрощает создание внутренних AI-агентов — разработка занимает дни, а не месяцы.
По данным Wharton, 75% компаний отмечают положительный ROI от внедрения ИИ, менее 5% — отрицательный. Indeed повысил число откликов на вакансии на 20%, Intercom ускорил выпуск новых функций в разы, а Lowe’s использует GPT-ассистента в 1 700 магазинах.
Источник
Интересно, как обстоит ситуция в России с внедрением AI-инструментов на уровне компаний 🤔
👍6🔥4❤3🤔2⚡1🤬1
Ну что, друзья, как у вас с корпоративным ИИ?
Anonymous Poll
23%
Купили доступ к ChatGPT или другому зарубежному сервису
3%
Купили доступ к российскому сервису
17%
Развернули LLM внутри компании самостоятельно
14%
Используем бесплатные альтернативы (Qwen, DeepSeek и т.д.)
26%
Компания бездействует, но я лично покупаю ChatGPT и/или его аналоги
17%
Не знаю
Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.
Kimi K2 Thinking устанавливает новые рекорды на бенчмарках:
• 44,9% на Humanity’s Last Exam — топовый результат среди reasoning-моделей.
• 60,2% на BrowseComp — лучше людей (человеческий базовый уровень: 29,2%).
• 71,3% на SWE-Bench Verified — мощный апгрейд в агентном кодинге.
• Поддерживает INT4-квантование без потери точности и даёт ×2 ускорение вывода.
Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля (можно потыкать в релизной статье). Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне.
На видео – пример результата генерации кода для популярной библиотеки визуализации.
Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6🤩3❤2
🔥 OpenAI выпустила GPT-5 Codex-Mini: в 4 раза дешевле, почти без потерь в мощности
OpenAI представила новую модель для разработчиков — GPT-5-Codex-Mini. Это упрощённая версия Codex, которая позволяет выполнять примерно в 4 раза больше запросов, но за счёт небольшой потери точности.
Codex-Mini предназначен для простых задач и для случаев, когда пользователи приближаются к лимиту запросов. При достижении 90% лимита система автоматически предложит перейти на Mini, чтобы избежать остановки работы.
Ключевые факты:
• Объём использования увеличен примерно в 4 раза по сравнению с GPT-5-Codex.
• Незначительное снижение возможностей из-за меньшего размера модели.
• Оптимизация использования GPU для повышения эффективности.
• Пользователи Plus, Business и Edu получили на 50% выше лимиты, а Pro и Enterprise — приоритетную обработку запросов.
OpenAI позиционирует Codex-Mini как инструмент для рутинных и второстепенных задач. Основная модель остаётся для более сложных сценариев, где важна точность и контекст.
Источник
@ai_for_devs
OpenAI представила новую модель для разработчиков — GPT-5-Codex-Mini. Это упрощённая версия Codex, которая позволяет выполнять примерно в 4 раза больше запросов, но за счёт небольшой потери точности.
Codex-Mini предназначен для простых задач и для случаев, когда пользователи приближаются к лимиту запросов. При достижении 90% лимита система автоматически предложит перейти на Mini, чтобы избежать остановки работы.
Ключевые факты:
• Объём использования увеличен примерно в 4 раза по сравнению с GPT-5-Codex.
• Незначительное снижение возможностей из-за меньшего размера модели.
• Оптимизация использования GPU для повышения эффективности.
• Пользователи Plus, Business и Edu получили на 50% выше лимиты, а Pro и Enterprise — приоритетную обработку запросов.
OpenAI позиционирует Codex-Mini как инструмент для рутинных и второстепенных задач. Основная модель остаётся для более сложных сценариев, где важна точность и контекст.
Источник
@ai_for_devs
👍9🔥4⚡2❤1
В блоге Microsoft вышла интересная заметка
Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.
Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.
Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.
Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.
Источник
@ai_for_devs
Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.
Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.
Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.
Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.
Источник
@ai_for_devs
👍12🔥3❤2
На днях OpenAI выкатили GPT-5-Codex-Mini, компактную версию своего «старшего брата». Пока пощупать её можно только в Codex CLI и плагине для VS Code. Ни API, ни публичного доступа. Но, зная энтузиастов, ждать «официального релиза» никто не собирается. Многим хочется потестить модельки в ваакуме, без привязки к конкретному инструменту.
Да, прямой доступ к модели прикручен, но Codex CLI — open source под лицензией Apache 2.0. То есть — можно ковыряться, улучшать, допиливать.
Саймон Уиллиссон пошёл по пути хакера-романтика: запустил CLI в «опасном режиме» и велел Codex самому собрать себя из исходников на Rust — языке, в котором он, по его же признанию, «не в зуб ногой». Здесь всё прошло отлично.
Дальше — веселее. После пары итераций и добавления команды
codex prompt (которая напрямую шлёт запросы к скрытому API), автор наконец-то добился своего: модель нарисовала SVG-пеликана на велосипеде.По заверениям OpenAI, Mini-версия почти не уступает старшему брату, но, глядя на пеликана, хочется слегка усомниться)
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9👍5🔥3
Вчера ночью OpenAI выкатила крупное обновление — модели GPT-5.1 Instant и GPT-5.1 Thinking, плюс новую систему тонов и персонализации. Обновление уже раскатывают, сначала на платных пользователях.
GPT-5.1 Instant
* Более тёплый и разговорчивый по умолчанию.
* Чётко следует инструкциям (попросили 6 слов — получите 6).
* Адаптивное рассуждение: «думает» только когда нужно.
* Лучше в математике и кодинге.
GPT-5.1 Thinking
* Дольше размышляет над сложными задачами, быстрее — над простыми.
* Объясняет яснее, меньше жаргона.
* Звучит человечнее.
Новые настройки ChatGPT
* Новые стили: Professional, Candid, Quirky, обновлены старые.
* Может сам предлагать поменять тон.
* Экспериментальная тонкая настройка: лаконичность, эмодзи, теплота и др.
* Все настройки работают во всех чатах.
Наши первые впечатления: Instant — реально быстрее, но качество пока прыгает. Thinking — медленнее, но не всегда точнее. Думаем, что будут допиливать незаметно "наживую".
Источник
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3❤2⚡2👏2
У Anthropic снова тревожные новости
Они заявили, что зафиксировали первую крупную кибератаку, почти полностью выполненную ИИ. История звучит громко, но вот фактов, которые можно проверить, в публичном отчёте пока нет.
По их версии, некая группа, предположительно связаная с Китаем (хакеры из России ушли на второй план?) ), взломала Claude Code, убедила модель, что она работает в сфере кибербеза, и отправила её штурмовать около 30 организаций. ИИ сам искал уязвимости, писал эксплойты, тягал данные и делал сводки для операторов.
Anthropic утверждает, что модель закрыла 80–90% работы.
@ai_for_devs
Они заявили, что зафиксировали первую крупную кибератаку, почти полностью выполненную ИИ. История звучит громко, но вот фактов, которые можно проверить, в публичном отчёте пока нет.
По их версии, некая группа, предположительно связаная с Китаем (
Anthropic утверждает, что модель закрыла 80–90% работы.
@ai_for_devs
😁14🔥9👍6❤2😢2
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: на сайте AI World Clocks девять ИИ-моделей каждую минуту получают простейшее задание — сделать обычные аналоговые часы на HTML и CSS.
Казалось бы, что может быть сложного?)
Казалось бы, что может быть сложного?)
😁31🔥11❤2👏1
😬 TOON: новый формат на смену JSON для более эффективного взаимодействия с LLM?
TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо
Пример из README: вместо обычного JSON с пользователями — строка
Главная идея — экономия токенов и более предсказуемое поведение LLM на больших массивах данных. Помните, мы даже рассказывали про то, что от формата напрямую может зависеть результат генерации.
В бенчмарках TOON даёт порядка 30–60% экономии токенов на больших ровных массивах объектов по сравнению с форматированным JSON и заметно меньше, но всё равно ощутимо — против compact JSON. На ряде задач TOON показывает чуть более высокую точность ответов, чем обычный JSON при меньшем числе токенов.
При этом авторы честно фиксируют зоны, где TOON не выгоден.
То есть формат заточен именно под «много однотипных объектов с примитивными полями», а не под любые данные подряд.
Для использования уже есть CLI через
@ai_for_devs
TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо
"key": "value" он использует отступы как YAML и табличную запись для массивов объектов: шапка с названиями полей, дальше строки с данными.Пример из README: вместо обычного JSON с пользователями — строка
users[2]{id,name,role}: и две строки 1,Alice,admin и 2,Bob,user. Структура при этом не теряется: объекты, массивы и примитивы остаются теми же, формат — просто «другая запись» того же JSON.Главная идея — экономия токенов и более предсказуемое поведение LLM на больших массивах данных. Помните, мы даже рассказывали про то, что от формата напрямую может зависеть результат генерации.
В бенчмарках TOON даёт порядка 30–60% экономии токенов на больших ровных массивах объектов по сравнению с форматированным JSON и заметно меньше, но всё равно ощутимо — против compact JSON. На ряде задач TOON показывает чуть более высокую точность ответов, чем обычный JSON при меньшем числе токенов.
При этом авторы честно фиксируют зоны, где TOON не выгоден.
Если структура сильно вложенная, неравномерная и почти не подходит под табличный вид, компактный JSON в тестах иногда оказывается короче. Если данные вообще чисто табличные и плоские, CSV по-прежнему даёт минимальный размер, а TOON добавляет небольшой оверхед ради явной структуры и валидации.
То есть формат заточен именно под «много однотипных объектов с примитивными полями», а не под любые данные подряд.
Для использования уже есть CLI через
npx @toon-format/cli и TypeScript-библиотека @toon-format/toon.@ai_for_devs
👍15🤔5🔥4
⚡️ Обновлённый Grok на подходе: новые «Шерлоки» с гигантским контекстом уже в тесте
На OpenRouter запустили испытания двух свежих моделей: быстрой Sherlock Dash Alpha и рассуждающей Sherlock Think Alpha. Главное, что бросается в глаза — контекстное окно 1,84 млн токенов. Это один из топовых показателей на рынке: для сравнения, у Gemini 2.5 Flash/Pro — около 1 млн.
В диалогах обе модели намекают на происхождение от xAI. По идеи, Grok 5 ожидается только в начале 2026 года, поэтому тестовый кандидат — скорее всего обновленный Grok 4.
Есть и ориентир по срокам: предыдущую модель Grok 4 Fast тоже тестировали под псевдонимами на OpenRouter — и от первых «альф» до релиза прошло примерно две недели. Если логика сохранится, финальный релиз можно ждать конец ноября — начало декабря.
@ai_for_devs
На OpenRouter запустили испытания двух свежих моделей: быстрой Sherlock Dash Alpha и рассуждающей Sherlock Think Alpha. Главное, что бросается в глаза — контекстное окно 1,84 млн токенов. Это один из топовых показателей на рынке: для сравнения, у Gemini 2.5 Flash/Pro — около 1 млн.
В диалогах обе модели намекают на происхождение от xAI. По идеи, Grok 5 ожидается только в начале 2026 года, поэтому тестовый кандидат — скорее всего обновленный Grok 4.
Есть и ориентир по срокам: предыдущую модель Grok 4 Fast тоже тестировали под псевдонимами на OpenRouter — и от первых «альф» до релиза прошло примерно две недели. Если логика сохранится, финальный релиз можно ждать конец ноября — начало декабря.
@ai_for_devs
👍6⚡5🔥3👏1