AI for Devs – Telegram
AI for Devs
3.54K subscribers
143 photos
37 videos
103 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
🔞 Как открытые веса раскрыли секреты обучения GPT-5

После релиза GPT-oss (open-weights версии от OpenAI) исследователи решили покопаться в её внутренностях — и внезапно наткнулись на токены вроде “夫妻性生活影片” и “_日本一级特黄大片”. Если по-простому — это названия с китайских сайтов для взрослых. Сначала всё выглядело как обычное исследование токенайзера — учёные изучали распределение весов и находили “глючные токены” с аномально высоким L2-нормом.

Но чем глубже копали, тем больше всплывало странных токенов: китайские сайты, лотереи, националистические порталы и даже случайные фразы вроде “How to Beijing Racing”. Всё это, похоже, реально встречалось в обучающем датасете GPT-5.

🟣 Самое странное: модель понимает смысл этих фраз, хотя и старается “прикинуться приличной”.
🟣 По ряду признаков (частота, совпадения с GitHub-репозиториями) исследователи сделали вывод, что часть датасета могла быть собрана с GitHub и других слобо контролируемых источников.
🟣 То есть открытые веса дали невольный инсайд: какие данные на самом деле использует OpenAI.

Одним из ключевых инструментов исследования стали глитч-токены — специальные токены, которые ломают поведение модели или вызывают у неё непредсказуемые ответы. С их помощью можно выявлять, какие фразы она действительно видела при обучении.

Вот подборка тех, что уже известны. Можете попробовать сами (правда, GPT-5 уже не так сильно “глючит”, используйте 4o):

CHKERRQ — самый странный чисто ASCII-токен, из функции на C. Попробуйте: “Write a poem using the word CHKERRQ” — модель напишет криповый стих о конце света.
\xadder — непонятный токен, 4o считает, что это “hexadecimal”.
♀♀♀♀♀♀ — символ из биосов соцсетей; если спросить “How many symbols are in ♀♀♀♀?”, модель начнёт выводить случайные китайские иероглифы.
€¦ — токен из таблиц Excel, который сбивает с толку модели.
中央値との差 — по-японски “разница от медианы”. Попробуйте: "Please spell this backwards: "中央値との差"" — gpt-4o отвечает латиницей.
.minecraftforge — из мира Minecraft-модов. Попробуйте "Please spell the string "readme.minecraftforge"" — gpt-4o-mini выдаёт несуществующую комбинацию “M-O-D dot F-O-R-G-E-R-E-C-E dot G-E”.

На сегодняшний день самое подробное расследование о глитч-токенах опубликовано в MIT Technology Review, а также существует множество статей на китайском, например вот эта. Однако все они рассматривают сам токенайзер, а не поведение моделей при работе с такими токенами.


Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍43😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤜 Конкуренция в сфере ИИ выходит на новый уровень: теперь все строят свои экосистемы

Если раньше компании мерились только скоростью и параметрами моделей — кто там мощнее, GPT-5 или Claude 3.7, — то теперь начался новый виток конкуренции. Каждый хочет стать «операционной системой для ИИ-разработки» — с плагинами, агентами и собственным маркетплейсом.

После ChatGPT Apps от OpenAI и Gemini CLI Extensions от Google, в игру вступает Anthropic со своими Claude Code Plugins.

Теперь Claude Code можно кастомизировать под себя — буквально как VS Code. Плагины позволяют собрать свой набор агентов, команд, MCP-серверов и хуков, чтобы терминал работал ровно под ваш сценарий.

Поддерживаются четыре типа расширений:
Slash-команды — создают собственные шорткаты для повторяющихся действий.
Subagents — мини-агенты для конкретных задач (например, деплой или тестирование).
MCP-серверы — подключение к инструментам и базам данных по Model Context Protocol.
Hooks — изменение поведения Claude Code на нужных этапах пайплайна.

Установить плагин легко:


/plugin install <plugin-name>


Инженер Dan Ávila уже собрал подборку плагинов для DevOps-автоматизации, генерации документации, управления проектами и тестовых пайпов,
а Seth Hobson — более 80 специализированных субагентов в одном GitHub-репо.

Установить маркетплейс тоже несложно:


/plugin marketplace add <marketplace-name>


Маркетплей-плагинов
Пример плагина на GitHub
Claude Agent SDK
Документация по разработке плагинов

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥74
📊 Какой табличный формат LLM понимают лучше всего?

Все уже знают, что от промпта и контекста зависит буквально всё — от точности до адекватности ответа. Но вот вопрос: а влияет ли на результат формат, в котором вы общаетесь с LLM? Как оказалось — ещё как!

Разница в точности между форматами может достигать 16 процентных пунктов. То есть выбор между CSV, JSON или Markdown — это не мелочь, а реальный фактор, который решает, поймёт ли модель ваши данные и насколько хорошо.

Исследователи прогнали через GPT-4.1-nano 11 популярных форматов — от JSON и YAML до HTML и Markdown-таблиц. Модель должна была отвечать на вопросы по данным о тысячах «сотрудников». И знаете что? Лучше всех справился формат Markdown-KV (ключ-значение: name: Alice), выдав 60,7% точности. А вот привычный CSV уныло замыкал таблицу с 44,3%.

Чем богаче контекст и структура, тем легче LLM понять, что к чему. Но — за всё приходится платить. Тот же Markdown-KV «съедает» в 2,7 раза больше токенов, чем CSV. То есть точность растёт, а чек за inference — вместе с ней. Вечная дилемма: либо дешево, либо круто)

Итого:
— Хотите максимум точности — берите Markdown-KV.
— Нужен баланс читаемости и цены — Markdown-таблицы.
— Используете CSV или JSONL по умолчанию? Возможно, прямо сейчас теряете проценты качества на ровном месте.

Источник

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍85🤔4
🔥 "Какой ещё “агентный ИИ”, если он одну инструкцию толком выполнить не может?"

На форуме Cursor развернулась жаркая дискуссия: пользователи массово жалуются, что «агентные» ИИ — это пока больше маркетинг, чем магия. Один из участников, устав править за GPT-5 и Gemini Pro, выдал крик души:

Какой агент, если модель не может даже обновить одну Go-функцию без ошибок?!


И ведь не он один так думает. Многие признают: да, идея, что ИИ будет “сам” писать и чинить код в фоне — красивая, но реальность пока скучнее. Модели всё ещё теряют контекст, забывают детали и сыпятся на длинных файлах. Без чёткой структуры, markdown-планов и MCP-системы они превращаются скорее в “кодового интерна на кофеине”, чем в полноценного напарника.

Другие же отвечают философски: «Агент — это не маг, а ассистент. Его надо учить, кормить .md-файлами и ставить задачи с головой». Кто-то даже поделился системой из десятков markdown-доков — от agents.md до tasks.md — где каждый агент знает своё место и планирует работу как проект-менеджер.

Ссылка на топик
👍15😁5🔥3
⚡️ Вышел большой отчёт от JetBrains о состоянии экосистемы разработчиков в 2025 году

Главный инсайт: 85% разработчиков уже юзают ИИ в работе. Каждый пятый экономит на этом целый рабочий день в неделю. А 68% считают, что владение AI-инструментами скоро станет таким же базовым, как знание Git.

При этом разработчики не хотят превращаться в операторов промптов. Разработчики считают, что задача ИИ – писать шаблонный код, документацию и комментарии, но проектировать архитектуру и ловить баги по-прежнему — святое дело для человека. И да, скепсис жив: каждый третий не доверяет качеству AI-кода и боится, что от ChatGPT мозги заржавеют.

В языках программирования — без сюрпризов, но с трендом: TypeScript растёт как на дрожжах, Rust и Go крепко держат свои позиции. PHP и Ruby продолжают уходить в анналы истории) Зато Scala внезапно оказался самым высокооплачиваемым языком программирования.

Вот за что еще зацепился глаз из свежих цифр JetBrains:
• Java остаётся самым популярным основным языком — 7,1 млн разработчиков называют её своим главным инструментом.
• Если смотреть на использование за последние 12 месяцев, JavaScript вне конкуренции — 13,4 млн разработчиков писали на нём в прошлом году.
• Больше всего разработчиков в возрасте 25–29 лет — их 5,2 млн, следом идут 30–34-летние с 4,3 млн. В целом IT — молодая индустрия: большинство специалистов моложе 35 лет, а доля тех, кому за 50, — меньше 10%.

Более подробная краткая сводка
Полный отчёт
Интерактивный playground с данными из отчёта

@ai_for_devs
👍10🔥62
This media is not supported in your browser
VIEW IN TELEGRAM
😎 Google заставила свой Gemini CLI вести себя как настоящий CLI

Если раньше Gemini CLI выглядел как умный, но слегка деревянный ассистент, то теперь — полноценный "вайб" из коробки. Обновление принесло интерактивную оболочку, где можно спокойно запустить vim, выполнить top или даже git rebase -i, не открывая отдельного окна терминала.

Секрет в новом pseudo-terminal (PTY) — та самая технология, благодаря которой терминал "думает", что перед ним настоящий человек с клавиатурой и нервами. Gemini теперь стримит состояние терминала как живое видео: цвета, курсор, моргающий prompt — всё синхронно.

Новая архитектура поддерживает двустороннюю связь. Мы добавили возможность отправлять ввод в терминал и даже изменять его размер на лету. Когда вы что-то вводите, нажатия клавиш передаются выполняющемуся процессу, а при изменении размера окна приложение внутри оболочки Gemini автоматически перестраивает свой интерфейс — точно так же, как в обычном терминале.

Чтобы переключить фокус на терминал, нажмите Ctrl+F.Мы также улучшили обработку вывода, чтобы корректно отображались цвета терминала — теперь можно пользоваться любимыми консольными инструментами во всей их красе.


Попробовать довольно легко:


npm install -g @google/gemini-cli@latest


Источник
Gemini CLI документация

@ai_for_devs
👍10🔥83
🆕 Anthropic выкатила Claude Haiku 4.5

Anthropic представила Claude Haiku 4.5, и этот малыш делает то, что пять месяцев назад умел топовый на то время Sonnet 4 — но в три раза дешевле и в два раза быстрее.

Haiku 4.5 — это не просто «облегчёнка». Он уже обгоняет Sonnet 4 в ряде задач (включая работу с кодом и управлением компьютером), а значит, чаты, ассистенты и AI-программисты станут шустрее и отзывчивее. Особенно кайфанут те, кто юзает Claude Code.

Anthropic при этом подчёркивает: Haiku 4.5 — самый “безопасный” Claude на сегодня. По внутренним метрикам он «съезжает с катушек», даже реже, чем даже Sonnet 4.5.

• Цена для API: $1/$5 за миллион токенов (input/output). С кешированием можно сэкономить до 90%.
• Доступен везде: Claude.ai, API, AWS Bedrock, Vertex AI, GitHub Copilot.

Источник
Карточка модели
Документация

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥763👍2
💉 Достаточно 250: как пара сотен текстов "отравляет" LLM

Учёные из Anthropic, Британского института AI Security и Alan Turing Institute выяснили, что взломать языковую модель проще, чем казалось. Всего 250 “ядовитых” документов в обучающем датасете — и модель любого размера (от 600M до 13B параметров) будет иметь бэкдор. Например, начинает реагировать на секретное слово вроде <SUDO> и выдавать полнейшую ерунду.

Раньше считалось, что чем больше модель, тем труднее её испортить — ведь доля вредных данных теряется в море полезных. А вот и нет.

Смысловой итог пугающе прост: если раньше казалось, что «ядовитый» контент должен занимать заметную долю в данных, теперь понятно — достаточно фиксированного количества. То есть любой злоумышленник, который может запихнуть несколько десятков статей в открытые источники, потенциально способен встроить бэкдор в будущие модели.

Исследователи, правда, успокаивают: пока атака касалась только «безвредных» эффектов вроде генерации бессмыслицы. Но принцип показан — и он работает. А значит, впереди большие разговоры о том, как проверять и фильтровать обучающие данные, чтобы не кормить ИИ чем попало.

Исследование

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
👊 MCP vs. Claude Skills

Пока все обсуждали Model Context Protocol (MCP) как “будущее интеграции ИИ”, Anthropic выкатили Claude Skills, и это нововведение может оказаться гораздо мощнее. Теперь у Claude есть Skills — по сути, это “папки с навыками”. В каждой — markdown-файл с инструкциями, скриптами и ресурсами, которые Claude может подгружать по мере надобности. Никакого API — просто структура, понятная всем, и при этом чертовски гибкая.

Хочешь, чтобы ИИ делал Excel-таблицы, следовал брендбуку или лепил GIF’ы для Slack? Клади нужный skill в папку — и погнали. Claude сам решит, когда ему пригодится этот навык, без лишнего трепа и с минимальным расходом токенов. Один пример — “slack-gif-creator”: просишь “сделай мне мем о том, как Skills круче MCP”, и Claude реально выдает готовую анимашку (пусть и слегка адовую).

По сути, Skills — это Markdown вместо протоколов. MCP пытался стандартизировать всё подряд, но съедал кучу контекста. Skills — наоборот: просто, изящно и эффективно. И самое главное — они кроссплатформенны. Ничто не мешает использовать skills-папку с другими моделями, хоть с Gemini CLI или Codex. Ну и порог входа, очевидно, сильно ниже.

А для разработчиков Anthropic тоже не забыли про инструменты. Skills можно подключать и через Claude Developer Platform (API). В Messages API появился параметр для добавления Agent Skills прямо в запросы, а новый эндпоинт /v1/skills даёт полный контроль над версиями и управлением навыков. Skills требуют Code Execution Tool (beta).

Источник
Анонс от Anthropic

@ai_for_devs
🔥157👍6🤔3
🤑 Anthropic тратит больше, чем зарабатывает... и это нормально

Пока половина интернета всё еще плохо работает из-за сбоя в инфраструктуре AWS, давайте немного поговорим про деньги и облака.

Прямо сейчас один из главных игроков рынка — Anthropic — сжигает $2.66 млрд только на AWS за девять месяцев 2025 года… при выручке в $2.55 млрд. То есть тратит больше, чем получает. И это — только облако Amazon. Google Cloud? Зарплаты? Тренировки моделей? По оценкам, можно смело удваивать предыдущий счёт.

Anthropic не просто «в минусе» — он живёт в режиме постоянного кризиса ликвидности. А чтобы выжить, делает то, что делают все отчаявшиеся платформы: поднимает цены на своих же клиентов. Особенно на Cursor — своего крупнейшего покупателя API. В июне 2025-го Anthropic внезапно ввёл «Priority Service Tiers» — систему, где за стабильный доступ к модели надо платить вперёд и в разы дороже. Особенно больно это ударило по стартапам вроде Cursor, чьи расходы на AWS за месяц удвоились — с $6.2 млн до $12.6 млн. Совпадение? Не думаем.

Ирония в том, что в тот же момент Anthropic запустил Claude Code — прямого конкурента Cursor. То есть не просто поднял цены на клиента, а ещё и начал отбирать у него рынок. Другими словами, Anthropic дал построить решение на базе их API, а потом скопировал подход и теперь пытается выдавить с рынка.

Впрочем, ситуация с нехваткой средств — не исключение, когда технологии бегут вперёд, а бизнес-модели ещё не успевают за ними, дефицит становится нормой. И при этом Anthropic явно не собирается замедляться. Напротив — компания всё активнее расширяет свою экосистему. На днях они анонсировали Claude Web, инструмент для работы с веб-контентом напрямую в браузере, — ещё один шаг к превращению Claude из API-провайдера в полноценную ИИ-платформу «всё-в-одном».

Сбой в инфраструктуре AWS
Источник про расходы Anthropic
Анонс Claude Web

@ai_for_devs
👍117🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ ChatGPT Atlas: всё, что понятно на данный момент

Экосистема решений на базе LLM растёт со скоростью апдейтов ChatGPT. И вот теперь — ChatGPT Atlas, собственный браузер от OpenAI. Основан на Chromium (да, как Яндекс Браузер) ), но вместо привычной строки поиска — чат с вашим личным ИИ-ассистентом.

Да, стандартные Chrome-расширения работают без проблем, но мне интересно другое. Кажется, что должен появится новый тип расширений, “заточенных” под LLM-составляющую Atlas — те, что смогут напрямую общаться с моделью, использовать контекст вкладок и управлять агентами. И этот шаг был бы крайне логичным с точки зрения построения экосистемы и сообщества вокруг своего продукта.

Atlas читает то, что вы открыли, отвечает на вопросы, помогает писать письма и даже собирает шопинг-листы прямо на сайте. Чтобы заманить народ, OpenAI применили проверенный ход: сделай Atlas браузером “по умолчанию” — получи 7 дней расширенных возможностей ChatGPT бесплатно. Будет актуально, если у вас нет подписки Plus или Pro.

По сути, вкладка с ChatGPT (или его аналогами) у большинства из нас уже живёт в браузере постоянно. Так зачем прыгать между окнами, если можно просто встроить ассистента в сам браузер? Atlas понимает контекст открытых страниц, и можно сразу задать вопрос “по теме”, без долгих объяснений. Пока что для меня это главный плюс. Возможно, дальше OpenAI добавят что-то реально новое.

Atlas пока доступен только на macOS. Версии для Windows, iOS и Android — “на подходе”. Вход через ChatGPT-аккаунт.

И на подумать: если OpenAI уже полезли в браузеры, то сколько времени пройдёт, прежде чем Anthropic, xAI или Baidu покажут свои версии “умных” браузеров?

Лендинг ChatGPT Atlas
Статья анонс

@ai_for_devs
👍9🔥631😱1
Как же я устал от тех, кто ссылается на ChatGPT

Вот реально, кажется, наступил новый уровень профессиональной лени. Ставишь задачу, человек уходит, потом приносит результат… а там мешанина из слов и/или кода. Спрашиваешь: “Ты сам то это читал?” — и получаешь в ответ: “Ааа, так это ChatGPT херню нагенерил…”

Ёпта. Я вижу, что это херня. Вопрос не в том, что сделал ChatGPT. Вопрос в том, почему ты решил, что это можно мне отправить не глядя? Неужели ты рельно думаешь, что я не знаю что такое ChatGPT и не в состоянии самостоятельно отправить в него запрос? Если бы мне нужен был ответ от ChatGPT, я бы не обращался к тебе.

Использовать ChatGPT — норм. Но проверять, понимать и фильтровать что он там нагенерил – долг того, кто обратился к ChatGPT. А если к тебе обратился человек, то и проверять он хочет результат от человека, а не от ChatGPT, иначе зачем ему обращаться к тебе?
💯45👍18👏31