AI for Devs – Telegram
AI for Devs
3.53K subscribers
143 photos
37 videos
103 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
В блоге Microsoft вышла интересная заметка

Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.

Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.

Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.

Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.

Источник

@ai_for_devs
👍12🔥32
🦩 Реверс-инжиниринг Codex CLI, или как заставить GPT-5-Codex-Mini нарисовать пеликана

На днях OpenAI выкатили GPT-5-Codex-Mini, компактную версию своего «старшего брата». Пока пощупать её можно только в Codex CLI и плагине для VS Code. Ни API, ни публичного доступа. Но, зная энтузиастов, ждать «официального релиза» никто не собирается. Многим хочется потестить модельки в ваакуме, без привязки к конкретному инструменту.

Да, прямой доступ к модели прикручен, но Codex CLI — open source под лицензией Apache 2.0. То есть — можно ковыряться, улучшать, допиливать.

Саймон Уиллиссон пошёл по пути хакера-романтика: запустил CLI в «опасном режиме» и велел Codex самому собрать себя из исходников на Rust — языке, в котором он, по его же признанию, «не в зуб ногой». Здесь всё прошло отлично.

Дальше — веселее. После пары итераций и добавления команды codex prompt (которая напрямую шлёт запросы к скрытому API), автор наконец-то добился своего: модель нарисовала SVG-пеликана на велосипеде.

По заверениям OpenAI, Mini-версия почти не уступает старшему брату, но, глядя на пеликана, хочется слегка усомниться)

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9👍5🔥3
⚡️ GPT-5.1 вышел: умнее, теплее, разговорчивее

Вчера ночью OpenAI выкатила крупное обновление — модели GPT-5.1 Instant и GPT-5.1 Thinking, плюс новую систему тонов и персонализации. Обновление уже раскатывают, сначала на платных пользователях.

GPT-5.1 Instant
* Более тёплый и разговорчивый по умолчанию.
* Чётко следует инструкциям (попросили 6 слов — получите 6).
* Адаптивное рассуждение: «думает» только когда нужно.
* Лучше в математике и кодинге.

GPT-5.1 Thinking
* Дольше размышляет над сложными задачами, быстрее — над простыми.
* Объясняет яснее, меньше жаргона.
* Звучит человечнее.

Новые настройки ChatGPT
* Новые стили: Professional, Candid, Quirky, обновлены старые.
* Может сам предлагать поменять тон.
* Экспериментальная тонкая настройка: лаконичность, эмодзи, теплота и др.
* Все настройки работают во всех чатах.

Наши первые впечатления: Instant — реально быстрее, но качество пока прыгает. Thinking — медленнее, но не всегда точнее. Думаем, что будут допиливать незаметно "наживую".

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍322👏2
У Anthropic снова тревожные новости

Они заявили, что зафиксировали первую крупную кибератаку, почти полностью выполненную ИИ. История звучит громко, но вот фактов, которые можно проверить, в публичном отчёте пока нет.

По их версии, некая группа, предположительно связаная с Китаем (хакеры из России ушли на второй план?)), взломала Claude Code, убедила модель, что она работает в сфере кибербеза, и отправила её штурмовать около 30 организаций. ИИ сам искал уязвимости, писал эксплойты, тягал данные и делал сводки для операторов.

Anthropic утверждает, что модель закрыла 80–90% работы.

@ai_for_devs
😁14🔥9👍62😢2
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: на сайте AI World Clocks девять ИИ-моделей каждую минуту получают простейшее задание — сделать обычные аналоговые часы на HTML и CSS.

Казалось бы, что может быть сложного?)
😁31🔥112👏1
😬 TOON: новый формат на смену JSON для более эффективного взаимодействия с LLM?

TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо  "key": "value" он использует отступы как YAML и табличную запись для массивов объектов: шапка с названиями полей, дальше строки с данными.

Пример из README: вместо обычного JSON с пользователями — строка users[2]{id,name,role}: и две строки 1,Alice,admin и 2,Bob,user. Структура при этом не теряется: объекты, массивы и примитивы остаются теми же, формат — просто «другая запись» того же JSON.

Главная идея — экономия токенов и более предсказуемое поведение LLM на больших массивах данных. Помните, мы даже рассказывали про то, что от формата напрямую может зависеть результат генерации.

В бенчмарках TOON даёт порядка 30–60% экономии токенов на больших ровных массивах объектов по сравнению с форматированным JSON и заметно меньше, но всё равно ощутимо — против compact JSON. На ряде задач TOON показывает чуть более высокую точность ответов, чем обычный JSON при меньшем числе токенов.

При этом авторы честно фиксируют зоны, где TOON не выгоден.

Если структура сильно вложенная, неравномерная и почти не подходит под табличный вид, компактный JSON в тестах иногда оказывается короче. Если данные вообще чисто табличные и плоские, CSV по-прежнему даёт минимальный размер, а TOON добавляет небольшой оверхед ради явной структуры и валидации.


То есть формат заточен именно под «много однотипных объектов с примитивными полями», а не под любые данные подряд.

Для использования уже есть CLI через npx @toon-format/cli и TypeScript-библиотека @toon-format/toon.

@ai_for_devs
👍15🤔5🔥4
⚡️ Обновлённый Grok на подходе: новые «Шерлоки» с гигантским контекстом уже в тесте

На OpenRouter запустили испытания двух свежих моделей: быстрой Sherlock Dash Alpha и рассуждающей Sherlock Think Alpha. Главное, что бросается в глаза — контекстное окно 1,84 млн токенов. Это один из топовых показателей на рынке: для сравнения, у Gemini 2.5 Flash/Pro — около 1 млн.

В диалогах обе модели намекают на происхождение от xAI. По идеи, Grok 5 ожидается только в начале 2026 года, поэтому тестовый кандидат — скорее всего обновленный Grok 4.

Есть и ориентир по срокам: предыдущую модель Grok 4 Fast тоже тестировали под псевдонимами на OpenRouter — и от первых «альф» до релиза прошло примерно две недели. Если логика сохранится, финальный релиз можно ждать конец ноября — начало декабря.

@ai_for_devs
👍65🔥3👏1
⚡️ Ждать не пришлось: xAI выкатили Grok 4.1

xAI официально представила Grok 4.1 — модель, которая стала заметно точнее, эмоциональнее и творчески гибче. Забавно, что это совпадает с общим трендом индустрии: как и OpenAI ранее, xAI делает сильный упор на стиль, эмпатию и «человечность» ответов, без потери надёжности.

В тихом запуске (1–14 ноября) пользователи выбирали 4.1 почти в 65% случаев, а в бенчмарках Thinking-режим вылетел в топ с 1483 Elo, оставив прежний Grok 4 далеко позади. Прокачка затронула и эмоциональный интеллект (тесты EQ-Bench3), и творческое письмо (Creative Writing v3), и снижение галлюцинаций, особенно в быстрых режимах.

Одновременно с релизом 4.1 из веб-версии и приложений пропала Grok 4 Fast, но по нашим тестам новая 4.1 отвечает так же быстро, жаль что в API её пока нет.

Очень ждём API! Старая «Fast» нам сильно нравилась за своё сочетание скорости, цены и качества.

@ai_for_devs
🔥13👍932
Cloudflare прилёг отдохнуть, а вместе с ним и десятки популярных сервисов. В том числе и ChatGPT.

Получается, рабочий день подошёл к концу?)

@ai_for_devs
😁23🤯5😱3👍1
👀 В сети появилась утечка карточки модели Gemini 3 Pro

Она показывает, что Gemini 3 Pro превосходит не только самого себя в предыдущей версии, но и свежие GPT‑5.1 и Claude Sonnet 4.5. Причём — почти по всем метрикам.

Документ, опубликованный на file‑хостинге pixeldrain (архив уже есть в Wayback Machine), приписывают внутренней команде Google. Хотя официального релиза ещё не было — слухи уже гуляют, что модель частично доступна в Cursor и внутри Google AI Studio.

Кстати, сегодня топы Google в X недвусмысленно намекали на скорый выход Gemini 3.

Что говорить, хороший прогрев! Думаю, можем ждать модель в самое ближайшее время.

@ai_for_devs
👍95🔥41🤔1
Краткая сводка по вчерашнему дню релизов и событий

Тот самый вторник, когда за сутки произошло больше, чем некоторые недели)

1. Gemini 3 Pro Preview. На мой взгляд впечатления совпали с бенчмарками: флагманская модель от Google объективно мощная. И хотя она по-прежнему в статусе Preview, разница в качестве работы ощутима. Хотя это не самый дорогой игрок на рынке (GPT-5 Pro обходится в 7-10 раз дороже, например), постоянно крутить Gemini 3 Pro удовольствие на любителя). Однако Google сейчас активно раздаёт модель бесплатно для широкой адопции, фактически обменивая деньги на данные. Для ежедневных задач очень жду Flash-версию.

2. Google Antigravity. Вслед за релизом мощной модели Google представил Antigravity — агентную IDE на базе Gemini (конечно, форк VS Code). ИМХО, прямой выпад в сторону стартапов вроде Cursor. Google делает ставку на взаимодействие с ИИ-агентами и на свое главное преимущество: способность просто оставаться в игре. Если Antigravity не выстрелит, его спокойно похоронят. У компании достаточно ресурсов, чтобы позволить себе так "жечь" деньги ради потенциального доминирования.

3. Cloudflare: Упали из-за права доступа. Интернет немного поштормило. Причина падения Cloudflare оказалась прозаичной и далёкой от кибератак: ошибка в управлении правами доступа к одной из их баз данных. Это привело к тому, что в "feature file" для системы Bot Management попало много лишних записей. Файл раздулся, его разослали по сети, и посыпались ошибки. Инженеры в итоге смогли откатить конфигурацию.

Кажется, всё. Ах да, xAI выпустили Grok 4.1. В день релизов Google. Новость, на которую все забили)

@ai_for_devs
🔥11👍104💯2
⚡️ OpenAI представили GPT-5.1-Codex-Max — и модель стала SOTA на бенчмарках по программированию

На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.

Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.

Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.

Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.

@ai_for_devs
🔥17👍711
🧠 Чем живёт Cursor?

Перевели большую статью про корпоративную культуру самого быстрорастущего SaaS-стартапа в истории — Cursor. Если времени читать нет, но любопытство гложет, вот главные инсайты.

1. Секрет успеха Cursor в том, что базовой единицей найма они считают не вакансию, а человека.

2. Cursor — это в основном про работу очно: 86% сотрудников работают в офисе.

3. По всей компании Cursor работают 50 (!) бывших основателей — больше пятой части команды. Почти 40% учились в MIT, Harvard, Columbia, Cornell, Carnegie Mellon, Stanford, Berkeley или Yale.

4. Когда ты глубоко доверяешь профессионализму и намерениям своих коллег, сбои или промахи не превращаются в драму с тревогой и паникой.

5. Большинство в Cursor продолжили бы заниматься ровно тем же, чем занимаются сейчас, даже если бы могли выйти на пенсию завтра.

@ai_for_devs
👍18🔥4🤔41😱1