🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей
Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.
Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.
TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.
@ai_for_devs
Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.
Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.
Коротко по основным результатам:🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.
TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍17🔥8❤5
Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
GitHub
GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!
Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome
1🔥20😁15👍7❤3🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT в 2060 ищет человека, который заставил его считать до миллиона по одному.
1😁80🤣28👍5🔥5😭2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера обновили
Qwen3-Max-Thinking, но без особо серьёзных новвоведений. А сегодня первой громко отметилась Kimi K2.5.Модель дообучили на ~15 трлн визуально-текстовых токенов, она изначально мультимодальная и без разделения «текст отдельно, картинки отдельно». Основной упор — код, в том числе с визуальным контекстом:
image/video-to-code, визуальный дебаг, восстановление интерфейсов по скринкастам.В инженерных задачах K2.5 тестируют на SWE-Bench (включая multilingual) и внутренних end-to-end сценариях — сборка, рефакторинг, отладка.
Отдельно показали Agent Swarm: модель сама оркестрирует до 100 субагентов и до 1 500 инструментальных шагов, что даёт ускорение до 4.5× по времени выполнения.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍9❤5⚡5🤩3
Перекличка. Сколько % кода за вас пишет AI в ПРОДАКШЕНЕ?
Anonymous Poll
11%
0%
14%
<10%
8%
от 10% до 30%
7%
от 30% до 50%
7%
от 50% до 70%
8%
от 70% до 90%
7%
>90%
10%
100%
27%
Посмотреть результат
👍15😱9🔥6🤣5❤1
В 2020 году, ещё до ChatGPT, OpenAI и Johns Hopkins опубликовали работу Scaling Laws for Neural Language Models.
В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.
Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.
Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.
Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.
@ai_for_devs
В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.
Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.
Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.
Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.
@ai_for_devs
👍27❤6🔥4💯3
В логах Vertex AI засветился идентификатор
claude-sonnet-5@20260203. Такие ID обычно появляются за несколько дней до релиза.Инфлюенсеры и инсайдеры в X вангуют на следующее:
* Показатели по SWE-Bench — 82.1% (у Claude Opus 4.5 сейчас 80.9%)
* Цены останутся прежними: $3 за 1M входных токенов и $15 за 1M выходных
* Контекст — 1 млн токенов (у Sonnet 4.5 был доступен контекст в 1 млн токенов, но в beta-режиме)
Если релиз состоится на этой неделе, то Anthropic отлично держит темп: новые Sonnet выходят примерно раз в 4 месяца, а Opus — раз в полгода.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥31👍18❤5⚡5🤩2
Media is too big
VIEW IN TELEGRAM
Вчера ночью OpenAI выкатили десктопное приложение Codex под macOS. Linux и Windows, как обычно, обещают позже. Atlas, к слову, так и не добрался до других платформ)) А прошло почти три месяца.
Я в основном пишу код в IDE, а агентов гоняю из терминала. Поэтому было интересно потыкать Codex вне CLI.
Понравилось. Визуальный доступ к Skills и настройкам агента заметно проще, дерево диалогов читается лучше и привычнее (как в старом добром ChatGPT).
Есть часть IDE-фишек: коммит, запуск проекта, просмотр диффа и встроенный терминал. Для всего, что сложнее, предлагают открыть IDE.
Также добавили планирование автоматизаций, пока что в beta режиме. Можно ставить фоновые задачи по расписанию, например регулярные CI-проверки, суммаризация коммитов для дейлика!!, апдейт ченджлога и так далее.
Для Free и Go тарифов временно открыли бесплатный доступ, остальным удвоили лимиты на два месяца. Неплохой повод наконец попробовать Codex, если вы всё еще не.
@ai_for_devs
Я в основном пишу код в IDE, а агентов гоняю из терминала. Поэтому было интересно потыкать Codex вне CLI.
Понравилось. Визуальный доступ к Skills и настройкам агента заметно проще, дерево диалогов читается лучше и привычнее (как в старом добром ChatGPT).
Есть часть IDE-фишек: коммит, запуск проекта, просмотр диффа и встроенный терминал. Для всего, что сложнее, предлагают открыть IDE.
Также добавили планирование автоматизаций, пока что в beta режиме. Можно ставить фоновые задачи по расписанию, например регулярные CI-проверки, суммаризация коммитов для дейлика!!, апдейт ченджлога и так далее.
Для Free и Go тарифов временно открыли бесплатный доступ, остальным удвоили лимиты на два месяца. Неплохой повод наконец попробовать Codex, если вы всё еще не.
@ai_for_devs
1👍24🔥11❤5🙏5🤩1
В основе 80B MoE-модель для агентного кодинга и локального использования.
Активных параметров всего 3B, немного, но по агентным бенчмаркам она показывает уровень моделей с 10–20× большим количеством активных параметров.
Контекст — 256K, можно запускать локально, понадобится 46 ГБ ОЗУ/видеопамяти/unified памяти (85 ГБ для 8-бит).
Моделька на Hugging Face.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍27🔥11🤩6❤2⚡2
В свежей работе Anthropic предлагают разделить ошибки LLM на две составляющие.
Bias — когда модель систематически делает неправильное.
Variance — когда результат сильно меняется от запуска к запуску.
Долю variance авторы используют как количественную меру incoherence — практической непредсказуемости.
Дальше эту непредсказуемость проверяют на прикладных сценариях: QA-бенчмарки, SWE-Bench, агентные цепочки действий. Картина повторяется везде. По мере роста длины цепочки действий агент всё чаще теряет нить задачи, делает лишние шаги или начинает себе противоречить. Это наблюдается у всех моделей, без исключений.
Увеличение размера модели помогает, но только до определённого предела. На простых задачах более крупные модели действительно ведут себя стабильнее. На сложных эффект исчезает или меняет знак: мощные модели чаще уходят в длинные, нестабильные рассуждения, которые повышают variance.
Для прикладных систем это означает, что большинство отказов будет выглядеть не как чёткий баг, а как хаотичное поведение на длинной дистанции. Проблема чаще не в том, что агент решает сделать, а в том, насколько воспроизводимо он это делает.
TL;DR: Предсказуемая ошибка лучше непредсказуемого успеха.
@ai_for_devs
Bias — когда модель систематически делает неправильное.
Variance — когда результат сильно меняется от запуска к запуску.
Долю variance авторы используют как количественную меру incoherence — практической непредсказуемости.
Дальше эту непредсказуемость проверяют на прикладных сценариях: QA-бенчмарки, SWE-Bench, агентные цепочки действий. Картина повторяется везде. По мере роста длины цепочки действий агент всё чаще теряет нить задачи, делает лишние шаги или начинает себе противоречить. Это наблюдается у всех моделей, без исключений.
Увеличение размера модели помогает, но только до определённого предела. На простых задачах более крупные модели действительно ведут себя стабильнее. На сложных эффект исчезает или меняет знак: мощные модели чаще уходят в длинные, нестабильные рассуждения, которые повышают variance.
Для прикладных систем это означает, что большинство отказов будет выглядеть не как чёткий баг, а как хаотичное поведение на длинной дистанции. Проблема чаще не в том, что агент решает сделать, а в том, насколько воспроизводимо он это делает.
TL;DR: Предсказуемая ошибка лучше непредсказуемого успеха.
@ai_for_devs
1👍25🔥6💯5❤3🤯1
🤝 Veai — технологический партнёр AI for Devs
Мы стараемся быть максимально прозрачными с вами. Чтобы делать качественный контент и развивать канал, нам нужны ресурсы — в том числе финансовые.
Поэтому мы договорились о партнёрстве с Veai. Это российская команда, которая разрабатывает AI-агента для разработчиков — инструмент, помогающий в повседневной работе с кодом.
Совсем недавно у ребят появился бесплатный 30-дневный период, так что можно спокойно попробовать продукт и понять, подходит ли он вам.
Мы будем периодически рассказывать про Veai: делиться возможностями продукта, новостями и мероприятиями от команды.
@ai_for_devs
Мы стараемся быть максимально прозрачными с вами. Чтобы делать качественный контент и развивать канал, нам нужны ресурсы — в том числе финансовые.
Поэтому мы договорились о партнёрстве с Veai. Это российская команда, которая разрабатывает AI-агента для разработчиков — инструмент, помогающий в повседневной работе с кодом.
Совсем недавно у ребят появился бесплатный 30-дневный период, так что можно спокойно попробовать продукт и понять, подходит ли он вам.
Мы будем периодически рассказывать про Veai: делиться возможностями продукта, новостями и мероприятиями от команды.
@ai_for_devs
1👍32❤7🤝7😁6🔥1
⚡️ Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
effort, адаптивное рассуждение и автоматическое сжатие контекста для долгоживущих агентов. Цена осталась прежней. Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
2🔥27👍9❤7🤩5⚡2