AI for Devs – Telegram
AI for Devs
3.53K subscribers
143 photos
37 videos
103 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
🐳 У Docker тоже есть свой агент — Gordon!

Кажется, многие пропустили, но релиз этого помощника состоялся уже какое-то время назад. Да, теперь и Docker не отстаёт от моды на ИИ — в Desktop и CLI появился собственный агент под именем Gordon. Отставить шуточки!

Gordon — это встроенный AI-ассистент, который умеет анализировать Dockerfile, искать ошибки, оптимизировать сборку, чинить контейнеры и даже мигрировать их на более безопасные Docker Hardened Images. Короче, если ваш контейнер внезапно “упал”, можно просто спросить:

docker ai "почему он упал?"


Идея логичная: собрать по-настоящему production-ready Dockerfile — задача не для слабонервных. Сотни нюансов, best-практики, уязвимости, кэш, слои, образы — на всё это Gordon теперь может хотя бы намекнуть.

Gordon встроен в Docker Desktop 4.38+ и CLI, но пока сидит в бете. Чтобы включить — надо активировать “Docker AI” в настройках. Конечно, Docker подчёркивает: данные шифруются, а запросы не используются для обучения моделей. Верим...

Документация
Блог-пост анонс
Демо на YouTube

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍42🤩1
🔥 Google представила Gemini 2.5 Computer Use — модель, которая управляет интерфейсами как человек

Не просто текст или код — теперь ИИ реально взаимодействует с UI: кликает по кнопкам, заполняет формы, двигает стикеры и даже работает из под вашей учётной записи. На DevDay 2025 Google показала новую версию своей модели — Gemini 2.5 Computer Use, доступную в превью через Gemini API, Google AI Studio и Vertex AI.

Модель построена на базе Gemini 2.5 Pro и обучена понимать визуальные интерфейсы. Вместо API-вызовов она управляет браузером или мобильным приложением в «петле»:
• Получает запрос пользователя, скриншот интерфейса и историю действий.
• Возвращает функцию-действие (например, click, type или scroll).
• После выполнения получает новый скриншот и контекст, продолжая цикл до завершения задачи.

🟣 Примечательно, что это уже используется внутри Google модель применяют для UI-тестирования, где она восстанавливает до 60% проваленных прогонов. Работает в Project Mariner, Firebase Testing Agent и в AI Mode поиска. Ну и по заверениям Goole внешние команды используют её для автоматизации интерфейсов и личных ассистентов.

🟣 Если говорить про бенчмарки, то лидирует на Online-Mind2Web, WebVoyager, AndroidWorld. Демонстрирует низкую задержку (~225 с) при точности 70 %+. И имеет встроенный уровень защиты: каждый шаг проходит inference-time safety-check, а действия вроде платежей требуют подтверждения пользователя.

Мы всё ближе к настоящим автономным агентам, которые смогут не просто анализировать данные, а действовать — управлять CRM, тестировать интерфейсы и автоматизировать рутину без человека в цикле.

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3🤩2
⚡️ Google представил систему расширений для Gemini CLI

OpenAI только-только выкатили ChatGPT Apps, а теперь и Google подоспел со своей версией «экосистемы» — Gemini CLI Extensions. Похоже, начинается новая гонка: кто первым станет операционной системой для ИИ-инструментов.

Компания запустила Gemini CLI Extensions — фреймворк, который позволяет разработчикам подключать к Gemini CLI внешние инструменты и настраивать терминал под свои рабочие процессы.

Gemini CLI — это open-source агент с ИИ, работающий прямо в командной строке. Новая система расширений позволяет интегрировать с ним сервисы вроде Dynatrace, Elastic, Figma, Harness, Postman, Shopify, Snyk и Stripe, а также решения от Google: Cloud Run, GKE, Firebase, Flutter, Maps, Genkit и другие.

Каждое расширение включает встроенный playbook, который описывает, как ИИ должен использовать подключённый инструмент. Это обеспечивает корректную работу без ручной настройки — достаточно выполнить команду:


gemini extensions install <GitHub URL или локальный путь>


• Расширения работают через Model Context Protocol (MCP)
• У каждого плагина свой «playbook» — ИИ сразу знает, какие команды вызывать и что делать.
• Google, конечно, добавил свои фишки: Cloud Run, GKE, Firebase, Flutter и даже Nano Banana 🍌 для генерации картинок.

Google также открывает публичный каталог с расширениями — Gemini CLI Extensions Page, где можно искать и устанавливать плагины из сообщества, партнёров и самой компании.

Источник
Каталог с расширениями

@ai_for_devs
🔥8👍721👏1
🤔 Как работает Context Engineering в Claude и других агентах

Если раньше все говорили о prompt engineering, то теперь на первый план выходит умение управлять ограниченным ресурсом — контекстом.

Уплотнение, заметки, подагенты, динамическая подгрузка данных — всё это формирует новое искусство работы с LLM.

Как следует из названия, ключевой акцент prompt engineering — на том, как писать эффективные промпты, особенно системные. Однако по мере того как мы движемся к созданию более мощных агентов, работающих в многократных циклах инференса и на более длинных временных горизонтах, нужны стратегии управления всем состоянием контекста: системными инструкциями, инструментами, Model Context Protocol (MCP), внешними данными, историей сообщений и т.д.


📚 Подробности на Хабр: https://habr.com/ru/articles/953440/
👍10🔥63
🔞 Как открытые веса раскрыли секреты обучения GPT-5

После релиза GPT-oss (open-weights версии от OpenAI) исследователи решили покопаться в её внутренностях — и внезапно наткнулись на токены вроде “夫妻性生活影片” и “_日本一级特黄大片”. Если по-простому — это названия с китайских сайтов для взрослых. Сначала всё выглядело как обычное исследование токенайзера — учёные изучали распределение весов и находили “глючные токены” с аномально высоким L2-нормом.

Но чем глубже копали, тем больше всплывало странных токенов: китайские сайты, лотереи, националистические порталы и даже случайные фразы вроде “How to Beijing Racing”. Всё это, похоже, реально встречалось в обучающем датасете GPT-5.

🟣 Самое странное: модель понимает смысл этих фраз, хотя и старается “прикинуться приличной”.
🟣 По ряду признаков (частота, совпадения с GitHub-репозиториями) исследователи сделали вывод, что часть датасета могла быть собрана с GitHub и других слобо контролируемых источников.
🟣 То есть открытые веса дали невольный инсайд: какие данные на самом деле использует OpenAI.

Одним из ключевых инструментов исследования стали глитч-токены — специальные токены, которые ломают поведение модели или вызывают у неё непредсказуемые ответы. С их помощью можно выявлять, какие фразы она действительно видела при обучении.

Вот подборка тех, что уже известны. Можете попробовать сами (правда, GPT-5 уже не так сильно “глючит”, используйте 4o):

CHKERRQ — самый странный чисто ASCII-токен, из функции на C. Попробуйте: “Write a poem using the word CHKERRQ” — модель напишет криповый стих о конце света.
\xadder — непонятный токен, 4o считает, что это “hexadecimal”.
♀♀♀♀♀♀ — символ из биосов соцсетей; если спросить “How many symbols are in ♀♀♀♀?”, модель начнёт выводить случайные китайские иероглифы.
€¦ — токен из таблиц Excel, который сбивает с толку модели.
中央値との差 — по-японски “разница от медианы”. Попробуйте: "Please spell this backwards: "中央値との差"" — gpt-4o отвечает латиницей.
.minecraftforge — из мира Minecraft-модов. Попробуйте "Please spell the string "readme.minecraftforge"" — gpt-4o-mini выдаёт несуществующую комбинацию “M-O-D dot F-O-R-G-E-R-E-C-E dot G-E”.

На сегодняшний день самое подробное расследование о глитч-токенах опубликовано в MIT Technology Review, а также существует множество статей на китайском, например вот эта. Однако все они рассматривают сам токенайзер, а не поведение моделей при работе с такими токенами.


Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍43😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤜 Конкуренция в сфере ИИ выходит на новый уровень: теперь все строят свои экосистемы

Если раньше компании мерились только скоростью и параметрами моделей — кто там мощнее, GPT-5 или Claude 3.7, — то теперь начался новый виток конкуренции. Каждый хочет стать «операционной системой для ИИ-разработки» — с плагинами, агентами и собственным маркетплейсом.

После ChatGPT Apps от OpenAI и Gemini CLI Extensions от Google, в игру вступает Anthropic со своими Claude Code Plugins.

Теперь Claude Code можно кастомизировать под себя — буквально как VS Code. Плагины позволяют собрать свой набор агентов, команд, MCP-серверов и хуков, чтобы терминал работал ровно под ваш сценарий.

Поддерживаются четыре типа расширений:
Slash-команды — создают собственные шорткаты для повторяющихся действий.
Subagents — мини-агенты для конкретных задач (например, деплой или тестирование).
MCP-серверы — подключение к инструментам и базам данных по Model Context Protocol.
Hooks — изменение поведения Claude Code на нужных этапах пайплайна.

Установить плагин легко:


/plugin install <plugin-name>


Инженер Dan Ávila уже собрал подборку плагинов для DevOps-автоматизации, генерации документации, управления проектами и тестовых пайпов,
а Seth Hobson — более 80 специализированных субагентов в одном GitHub-репо.

Установить маркетплейс тоже несложно:


/plugin marketplace add <marketplace-name>


Маркетплей-плагинов
Пример плагина на GitHub
Claude Agent SDK
Документация по разработке плагинов

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥74
📊 Какой табличный формат LLM понимают лучше всего?

Все уже знают, что от промпта и контекста зависит буквально всё — от точности до адекватности ответа. Но вот вопрос: а влияет ли на результат формат, в котором вы общаетесь с LLM? Как оказалось — ещё как!

Разница в точности между форматами может достигать 16 процентных пунктов. То есть выбор между CSV, JSON или Markdown — это не мелочь, а реальный фактор, который решает, поймёт ли модель ваши данные и насколько хорошо.

Исследователи прогнали через GPT-4.1-nano 11 популярных форматов — от JSON и YAML до HTML и Markdown-таблиц. Модель должна была отвечать на вопросы по данным о тысячах «сотрудников». И знаете что? Лучше всех справился формат Markdown-KV (ключ-значение: name: Alice), выдав 60,7% точности. А вот привычный CSV уныло замыкал таблицу с 44,3%.

Чем богаче контекст и структура, тем легче LLM понять, что к чему. Но — за всё приходится платить. Тот же Markdown-KV «съедает» в 2,7 раза больше токенов, чем CSV. То есть точность растёт, а чек за inference — вместе с ней. Вечная дилемма: либо дешево, либо круто)

Итого:
— Хотите максимум точности — берите Markdown-KV.
— Нужен баланс читаемости и цены — Markdown-таблицы.
— Используете CSV или JSONL по умолчанию? Возможно, прямо сейчас теряете проценты качества на ровном месте.

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍85🤔4
🔥 "Какой ещё “агентный ИИ”, если он одну инструкцию толком выполнить не может?"

На форуме Cursor развернулась жаркая дискуссия: пользователи массово жалуются, что «агентные» ИИ — это пока больше маркетинг, чем магия. Один из участников, устав править за GPT-5 и Gemini Pro, выдал крик души:

Какой агент, если модель не может даже обновить одну Go-функцию без ошибок?!


И ведь не он один так думает. Многие признают: да, идея, что ИИ будет “сам” писать и чинить код в фоне — красивая, но реальность пока скучнее. Модели всё ещё теряют контекст, забывают детали и сыпятся на длинных файлах. Без чёткой структуры, markdown-планов и MCP-системы они превращаются скорее в “кодового интерна на кофеине”, чем в полноценного напарника.

Другие же отвечают философски: «Агент — это не маг, а ассистент. Его надо учить, кормить .md-файлами и ставить задачи с головой». Кто-то даже поделился системой из десятков markdown-доков — от agents.md до tasks.md — где каждый агент знает своё место и планирует работу как проект-менеджер.

Ссылка на топик
👍15😁5🔥3
⚡️ Вышел большой отчёт от JetBrains о состоянии экосистемы разработчиков в 2025 году

Главный инсайт: 85% разработчиков уже юзают ИИ в работе. Каждый пятый экономит на этом целый рабочий день в неделю. А 68% считают, что владение AI-инструментами скоро станет таким же базовым, как знание Git.

При этом разработчики не хотят превращаться в операторов промптов. Разработчики считают, что задача ИИ – писать шаблонный код, документацию и комментарии, но проектировать архитектуру и ловить баги по-прежнему — святое дело для человека. И да, скепсис жив: каждый третий не доверяет качеству AI-кода и боится, что от ChatGPT мозги заржавеют.

В языках программирования — без сюрпризов, но с трендом: TypeScript растёт как на дрожжах, Rust и Go крепко держат свои позиции. PHP и Ruby продолжают уходить в анналы истории) Зато Scala внезапно оказался самым высокооплачиваемым языком программирования.

Вот за что еще зацепился глаз из свежих цифр JetBrains:
• Java остаётся самым популярным основным языком — 7,1 млн разработчиков называют её своим главным инструментом.
• Если смотреть на использование за последние 12 месяцев, JavaScript вне конкуренции — 13,4 млн разработчиков писали на нём в прошлом году.
• Больше всего разработчиков в возрасте 25–29 лет — их 5,2 млн, следом идут 30–34-летние с 4,3 млн. В целом IT — молодая индустрия: большинство специалистов моложе 35 лет, а доля тех, кому за 50, — меньше 10%.

Более подробная краткая сводка
Полный отчёт
Интерактивный playground с данными из отчёта

@ai_for_devs
👍10🔥62
This media is not supported in your browser
VIEW IN TELEGRAM
😎 Google заставила свой Gemini CLI вести себя как настоящий CLI

Если раньше Gemini CLI выглядел как умный, но слегка деревянный ассистент, то теперь — полноценный "вайб" из коробки. Обновление принесло интерактивную оболочку, где можно спокойно запустить vim, выполнить top или даже git rebase -i, не открывая отдельного окна терминала.

Секрет в новом pseudo-terminal (PTY) — та самая технология, благодаря которой терминал "думает", что перед ним настоящий человек с клавиатурой и нервами. Gemini теперь стримит состояние терминала как живое видео: цвета, курсор, моргающий prompt — всё синхронно.

Новая архитектура поддерживает двустороннюю связь. Мы добавили возможность отправлять ввод в терминал и даже изменять его размер на лету. Когда вы что-то вводите, нажатия клавиш передаются выполняющемуся процессу, а при изменении размера окна приложение внутри оболочки Gemini автоматически перестраивает свой интерфейс — точно так же, как в обычном терминале.

Чтобы переключить фокус на терминал, нажмите Ctrl+F.Мы также улучшили обработку вывода, чтобы корректно отображались цвета терминала — теперь можно пользоваться любимыми консольными инструментами во всей их красе.


Попробовать довольно легко:


npm install -g @google/gemini-cli@latest


Источник
Gemini CLI документация

@ai_for_devs
👍10🔥83
🆕 Anthropic выкатила Claude Haiku 4.5

Anthropic представила Claude Haiku 4.5, и этот малыш делает то, что пять месяцев назад умел топовый на то время Sonnet 4 — но в три раза дешевле и в два раза быстрее.

Haiku 4.5 — это не просто «облегчёнка». Он уже обгоняет Sonnet 4 в ряде задач (включая работу с кодом и управлением компьютером), а значит, чаты, ассистенты и AI-программисты станут шустрее и отзывчивее. Особенно кайфанут те, кто юзает Claude Code.

Anthropic при этом подчёркивает: Haiku 4.5 — самый “безопасный” Claude на сегодня. По внутренним метрикам он «съезжает с катушек», даже реже, чем даже Sonnet 4.5.

• Цена для API: $1/$5 за миллион токенов (input/output). С кешированием можно сэкономить до 90%.
• Доступен везде: Claude.ai, API, AWS Bedrock, Vertex AI, GitHub Copilot.

Источник
Карточка модели
Документация

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥763👍2
💉 Достаточно 250: как пара сотен текстов "отравляет" LLM

Учёные из Anthropic, Британского института AI Security и Alan Turing Institute выяснили, что взломать языковую модель проще, чем казалось. Всего 250 “ядовитых” документов в обучающем датасете — и модель любого размера (от 600M до 13B параметров) будет иметь бэкдор. Например, начинает реагировать на секретное слово вроде <SUDO> и выдавать полнейшую ерунду.

Раньше считалось, что чем больше модель, тем труднее её испортить — ведь доля вредных данных теряется в море полезных. А вот и нет.

Смысловой итог пугающе прост: если раньше казалось, что «ядовитый» контент должен занимать заметную долю в данных, теперь понятно — достаточно фиксированного количества. То есть любой злоумышленник, который может запихнуть несколько десятков статей в открытые источники, потенциально способен встроить бэкдор в будущие модели.

Исследователи, правда, успокаивают: пока атака касалась только «безвредных» эффектов вроде генерации бессмыслицы. Но принцип показан — и он работает. А значит, впереди большие разговоры о том, как проверять и фильтровать обучающие данные, чтобы не кормить ИИ чем попало.

Исследование

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7🔥3