NEW BOT Телеграм, страница

Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках:
• 44,9% на Humanity’s Last Exam — топовый результат среди reasoning-моделей.
• 60,2% на BrowseComp — лучше людей (человеческий базовый уровень: 29,2%).
• 71,3% на SWE-Bench Verified — мощный апгрейд в агентном кодинге.
• Поддерживает INT4-квантование без потери точности и даёт ×2 ускорение вывода.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля (можно потыкать в релизной статье). Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне.

На видео – пример результата генерации кода для популярной библиотеки визуализации.

Источник

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥6🤩3❤2

1.72K views06:30

AI for Devs

🔥 OpenAI выпустила GPT-5 Codex-Mini: в 4 раза дешевле, почти без потерь в мощности

OpenAI представила новую модель для разработчиков — GPT-5-Codex-Mini. Это упрощённая версия Codex, которая позволяет выполнять примерно в 4 раза больше запросов, но за счёт небольшой потери точности.

Codex-Mini предназначен для простых задач и для случаев, когда пользователи приближаются к лимиту запросов. При достижении 90% лимита система автоматически предложит перейти на Mini, чтобы избежать остановки работы.

Ключевые факты:
• Объём использования увеличен примерно в 4 раза по сравнению с GPT-5-Codex.
• Незначительное снижение возможностей из-за меньшего размера модели.
• Оптимизация использования GPU для повышения эффективности.
• Пользователи Plus, Business и Edu получили на 50% выше лимиты, а Pro и Enterprise — приоритетную обработку запросов.

OpenAI позиционирует Codex-Mini как инструмент для рутинных и второстепенных задач. Основная модель остаётся для более сложных сценариев, где важна точность и контекст.

Источник

@ai_for_devs

👍9🔥4⚡2❤1

1.71K views09:41

AI for Devs

В блоге Microsoft вышла интересная заметка

Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.

Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.

Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.

Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.

Источник

@ai_for_devs

👍12🔥3❤2

1.8K views11:03

AI for Devs

🦩

Реверс-инжиниринг Codex CLI, или как заставить GPT-5-Codex-Mini нарисовать пеликана

На днях OpenAI выкатили GPT-5-Codex-Mini, компактную версию своего «старшего брата». Пока пощупать её можно только в Codex CLI и плагине для VS Code. Ни API, ни публичного доступа. Но, зная энтузиастов, ждать «официального релиза» никто не собирается. Многим хочется потестить модельки в ваакуме, без привязки к конкретному инструменту.

Да, прямой доступ к модели прикручен, но Codex CLI — open source под лицензией Apache 2.0. То есть — можно ковыряться, улучшать, допиливать.

Саймон Уиллиссон пошёл по пути хакера-романтика: запустил CLI в «опасном режиме» и велел Codex самому собрать себя из исходников на Rust — языке, в котором он, по его же признанию, «не в зуб ногой». Здесь всё прошло отлично.

Дальше — веселее. После пары итераций и добавления команды codex prompt (которая напрямую шлёт запросы к скрытому API), автор наконец-то добился своего: модель нарисовала SVG-пеликана на велосипеде.

По заверениям OpenAI, Mini-версия почти не уступает старшему брату, но, глядя на пеликана, хочется слегка усомниться)

Источник

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

😁9👍5🔥3

2.01K views05:01

AI for Devs

⚡️

GPT-5.1 вышел: умнее, теплее, разговорчивее

Вчера ночью OpenAI выкатила крупное обновление — модели GPT-5.1 Instant и GPT-5.1 Thinking, плюс новую систему тонов и персонализации. Обновление уже раскатывают, сначала на платных пользователях.

GPT-5.1 Instant
* Более тёплый и разговорчивый по умолчанию.
* Чётко следует инструкциям (попросили 6 слов — получите 6).
* Адаптивное рассуждение: «думает» только когда нужно.
* Лучше в математике и кодинге.

GPT-5.1 Thinking
* Дольше размышляет над сложными задачами, быстрее — над простыми.
* Объясняет яснее, меньше жаргона.
* Звучит человечнее.

Новые настройки ChatGPT
* Новые стили: Professional, Candid, Quirky, обновлены старые.
* Может сам предлагать поменять тон.
* Экспериментальная тонкая настройка: лаконичность, эмодзи, теплота и др.
* Все настройки работают во всех чатах.

Наши первые впечатления: Instant — реально быстрее, но качество пока прыгает. Thinking — медленнее, но не всегда точнее. Думаем, что будут допиливать незаметно "наживую".

Источник

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍3❤2⚡2👏2

1.68K views06:41

AI for Devs

У Anthropic снова тревожные новости

Они заявили, что зафиксировали первую крупную кибератаку, почти полностью выполненную ИИ. История звучит громко, но вот фактов, которые можно проверить, в публичном отчёте пока нет.

По их версии, некая группа, предположительно связаная с Китаем (хакеры из России ушли на второй план?)), взломала Claude Code, убедила модель, что она работает в сфере кибербеза, и отправила её штурмовать около 30 организаций. ИИ сам искал уязвимости, писал эксплойты, тягал данные и делал сводки для операторов.

Anthropic утверждает, что модель закрыла 80–90% работы.

@ai_for_devs

😁14🔥9👍6❤2😢2

1.96K views07:22

AI for Devs

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Мем дня: на сайте AI World Clocks девять ИИ-моделей каждую минуту получают простейшее задание — сделать обычные аналоговые часы на HTML и CSS.

Казалось бы, что может быть сложного?)

😁31🔥11❤2👏1

3.57K views19:26

AI for Devs

😬 TOON: новый формат на смену JSON для более эффективного взаимодействия с LLM?

TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо "key": "value" он использует отступы как YAML и табличную запись для массивов объектов: шапка с названиями полей, дальше строки с данными.

Пример из README: вместо обычного JSON с пользователями — строка users[2]{id,name,role}: и две строки 1,Alice,admin и 2,Bob,user. Структура при этом не теряется: объекты, массивы и примитивы остаются теми же, формат — просто «другая запись» того же JSON.

Главная идея — экономия токенов и более предсказуемое поведение LLM на больших массивах данных. Помните, мы даже рассказывали про то, что от формата напрямую может зависеть результат генерации.

В бенчмарках TOON даёт порядка 30–60% экономии токенов на больших ровных массивах объектов по сравнению с форматированным JSON и заметно меньше, но всё равно ощутимо — против compact JSON. На ряде задач TOON показывает чуть более высокую точность ответов, чем обычный JSON при меньшем числе токенов.

При этом авторы честно фиксируют зоны, где TOON не выгоден.

Если структура сильно вложенная, неравномерная и почти не подходит под табличный вид, компактный JSON в тестах иногда оказывается короче. Если данные вообще чисто табличные и плоские, CSV по-прежнему даёт минимальный размер, а TOON добавляет небольшой оверхед ради явной структуры и валидации.

То есть формат заточен именно под «много однотипных объектов с примитивными полями», а не под любые данные подряд.

Для использования уже есть CLI через npx @toon-format/cli и TypeScript-библиотека @toon-format/toon.

@ai_for_devs

👍15🤔5🔥4

2.83K views11:16

AI for Devs

⚡️ Обновлённый Grok на подходе: новые «Шерлоки» с гигантским контекстом уже в тесте

На OpenRouter запустили испытания двух свежих моделей: быстрой Sherlock Dash Alpha и рассуждающей Sherlock Think Alpha. Главное, что бросается в глаза — контекстное окно 1,84 млн токенов. Это один из топовых показателей на рынке: для сравнения, у Gemini 2.5 Flash/Pro — около 1 млн.

В диалогах обе модели намекают на происхождение от xAI. По идеи, Grok 5 ожидается только в начале 2026 года, поэтому тестовый кандидат — скорее всего обновленный Grok 4.

Есть и ориентир по срокам: предыдущую модель Grok 4 Fast тоже тестировали под псевдонимами на OpenRouter — и от первых «альф» до релиза прошло примерно две недели. Если логика сохранится, финальный релиз можно ждать конец ноября — начало декабря.

@ai_for_devs

👍6⚡5🔥3👏1

1.56K viewsedited 10:30

AI for Devs

⚡️ Ждать не пришлось: xAI выкатили Grok 4.1

xAI официально представила Grok 4.1 — модель, которая стала заметно точнее, эмоциональнее и творчески гибче. Забавно, что это совпадает с общим трендом индустрии: как и OpenAI ранее, xAI делает сильный упор на стиль, эмпатию и «человечность» ответов, без потери надёжности.

В тихом запуске (1–14 ноября) пользователи выбирали 4.1 почти в 65% случаев, а в бенчмарках Thinking-режим вылетел в топ с 1483 Elo, оставив прежний Grok 4 далеко позади. Прокачка затронула и эмоциональный интеллект (тесты EQ-Bench3), и творческое письмо (Creative Writing v3), и снижение галлюцинаций, особенно в быстрых режимах.

Одновременно с релизом 4.1 из веб-версии и приложений пропала Grok 4 Fast, но по нашим тестам новая 4.1 отвечает так же быстро, жаль что в API её пока нет.

Очень ждём API! Старая «Fast» нам сильно нравилась за своё сочетание скорости, цены и качества.

@ai_for_devs

🔥13👍9⚡3❤2

1.75K views06:10

AI for Devs

Cloudflare прилёг отдохнуть, а вместе с ним и десятки популярных сервисов. В том числе и ChatGPT.

Получается, рабочий день подошёл к концу?)

@ai_for_devs

😁23🤯5😱3👍1

1.85K views12:51

AI for Devs

👀 В сети появилась утечка карточки модели Gemini 3 Pro

Она показывает, что Gemini 3 Pro превосходит не только самого себя в предыдущей версии, но и свежие GPT‑5.1 и Claude Sonnet 4.5. Причём — почти по всем метрикам.

Документ, опубликованный на file‑хостинге pixeldrain (архив уже есть в Wayback Machine), приписывают внутренней команде Google. Хотя официального релиза ещё не было — слухи уже гуляют, что модель частично доступна в Cursor и внутри Google AI Studio.

Кстати, сегодня топы Google в X недвусмысленно намекали на скорый выход Gemini 3.

Что говорить, хороший прогрев! Думаю, можем ждать модель в самое ближайшее время.

@ai_for_devs

👍9⚡5🔥4❤1🤔1

2.12K views13:19

About

Blog

Apps

Platform