NEW BOT Телеграм, страница

AI[ex]Time

Рефлексия на тему построения AI агентов от команды Manus, где собран ряд практических советов, как строить контекст, обрабатывать наблюдения из среды, работать с тулами. Любопытно почитать, к какому дизайну пришли авторы после многократных итераций и фидбек лупов. Вся заметка написана через призму использования in-context learning (ICL), то есть упор сделан не на обучении, а использовании мощных уже существующих моделей, где основная задача — правильно собрать контекст: написать хорошие промпты, тулы, решить, какую информацию мы будем помещать туда, а какую нет и тд. Один из первых пунктов звучит так:

If I had to choose just one metric, I'd argue that the KV-cache hit rate is the single most important metric for a production-stage AI agent…Keep your prompt prefix stable…Make your context append-only.

За этим стоит понятное объяснение: закэшированные токены ускоряют инференс, снижая time-to-first-token (TTFT), у фронтир моделей почти всегда цена за токены в кэше сильно меньше, что очевидно очень важно для коммерческого продукта (пример с grok code выше). Но, проецируя описанные проблемы еще и на сценарий обучения моделей, я бы добавил один важный момент. Если у нас нарушается линейность траектории и в разных моментах контекст собирается по-разному (такое может быть часто, если мы начнем смотреть в сторону суммаризации предыдущей истории для экономии длины контекста), то мы столкнемся с проблемой во время обучения, а именно не сможем использовать всю multi-turn траекторию, чтобы обучаться на ней за раз. Вместо этого придется дробить ее на отдельные семплы, маскировать префикс и обучаться только на последнем действии, что катастрофически снижает sample efficiency тренировки. Так что нужно помнить, что должны быть действительно весомые причины, чтобы отойти от концепта append-only context. По этой же причине, кстати, неприятно тюнить гибридные модели qwen3, у которых манипуляции с <think> тегами происходят только на последнем шаге траектории.

❤14👍6🔥2

7.51K viewsAlex Golubev, 08:59

AI[ex]Time

Вопрос к вам, дорогие читатели: в каких срезах вы считаете важным смотреть на поведение SWE агентов?
Сейчас на лидерборде https://swe-rebench.com мы замеряем способности моделей решать GitHub issues на питоне. Это покрывает лишь малую часть того, что мы понимаем под разработкой. Возможными шагами по расширению бенча могут быть:
- Оценка качества написания тестов (может ли модель написать тест, который падает до и проходит после правильного фикса?)
- Добавление множества языков (например, Java, Go, Rust, etc)

Хочу собрать фидбек на следующие темы:
- Считаете ли вы что-то из вышеперечисленного более приоритетным?
- Если говорить про мультиязычность, то какие языки интересны в первую очередь?
- Какие еще срезы вам кажутся важными в контексте замеров агентов?

Если у вас есть возможность порепостить аналогичный пост в X, то буду признателен. Хочется собрать максимально возможный фидбек от пользователей.

❤7

2.26K viewsAlex Golubev, 16:30

AI[ex]Time

Forwarded from эйай ньюз

Nvidia Rubin CPX — чипы для ИИ всё более специализируются

Инференс современных LLM состоит из двух стадий: prefill и decoding, которые крайне отличаются по своим требованиям. Префил требует вычислительную мощность чтобы сгенерировать KV кэш, а для декодинга нужна пропускная способности памяти, чтобы грузить KV кэш и веса на чип.

Из-за такой разницы, на нодах которые занимаются префилом, простаивает самая дорогая часть современных датацентровых GPU — HBM память, которая сейчас составляет 50%+ всей стоимости GPU. К тому же она всё ещё в дефиците и является чуть ли не основным ограничителем производства видеокарточек.

Решение от Nvidia — сделать специальные, более дешёвые, карточки для префила. В качестве памяти — 128 гигабайт GDDR7 (против 288GB HBM4 у VR200), пропускной способность в 2 терабайта в секунду вполне достаточна для префила. Кроме этого экономят на других штуках вокруг чипа — вместо дефицитного CoWoS-L используют более бюджетный FC-BGA, а связываются карточки друг с другом по PCIe вместо NVLink.

Большой плюс — упаковать в одну стойку можно 144 таких видеокарты, против всего 72 GPU в NVL144. При этом такая стойка с Rubin CPX будет не просто иметь больше компьюта, но и кушать меньше энергии.

Так как префил в больших деплойментах и так делают на отдельных нодах, на высоком уровне мало что изменится — просто машины для префила переедут на специальное железо. Главный минус — такие GPU перекидывать между тренировкой и инференсом вряд-ли выйдет, но это явно будет компенсировано разницей в цене и доступности.

@ai_newz

❤6

1.65K viewsAlex Golubev, 08:31

AI[ex]Time

Небольшой апдейт https://swe-rebench.com

Добавили 4 модели: Grok 4, Qwen3-Next-80B-A3B-Instruct, DeepSeek V3.1, Kimi-K2 0905

Из хайлайтов:
- Grok4 ворвался в верхнюю часть лидерборда
- Kimi K2 значительно прибавил и, помимо общего топа, теперь входит в топ3 опенсурс моделей
- DeepSeek шагнул вперед тоже, но не так сильно. Зато посмотрите, сколько теперь токенов он генерит
- Qwen3-Next выглядит очень неплохо для своих A3B, ждем кодер версию

🔥12

2.88K viewsAlex Golubev, 11:36

AI[ex]Time

1.68K viewsAlex Golubev, 13:41

AI[ex]Time

Какой-то привлекающий внимание релиз от Kwaipilot (раньше не слышал про них) – 32B и 72B модели, выбивающие на SWE-bench Verified 62.4% и 74.6%, причем используя дефолтный swe-agent. А это уже так-то уровень gpt5 codex high анонса openai. Пока что есть только блогпост, в котором раскрыли чуть-чуть деталей, но не столько, сколько хотелось бы. Обучение выглядит уже по классике: base → mid-train → SFT → RFT → RL. Расскажу, что, на мой взгляд, есть интересного:

– Обычно награда на стадии RL строится так: за успешное прохождение тестов дается +1, за неудачное — 0. Есть альтернативы, когда считается похожесть сгенерированного патча на golden patch (то есть изменения, взятого напрямую из pull request-а), так делали например, в недавней работе CWM от FAIR или в SWE-RL. Здесь авторы предлагают другое. Во время RFT они собирают с помощью людей “teacher trajectories”, которые используют потом во время RL для того, чтобы считать отклонения от хорошего поведения. Это отклонение и выступает в роли награды. Если траектория во время RL становится сильно не похожей ни на какую траекторию из ground truth, то она удаляется. На мой взгляд, идея интересная, но возникает много вопросов, возможно хорошее направление для ресерча.
– Написано довольно размыто, но, по-видимому, авторы агрегируют все траектории в префиксное дерево, где узел – это префикс, который может встречаться сразу в нескольких траекториях. А далее это дерево прунят по каким-то критериям, чтобы оставить самые ценные узлы. Мотивация здесь может быть следующей: тк контексты в моделях большие, а награда всего одна в конце, то апдейты на каждом шаге – вещь довольно шумная. За счет прунинга дерева траекторий, можно выкидывать какие-то маловажные части контекста. Но тут слишком мало информации, чтобы делать выводы сложнее. Хотя направление опять же прикольное.
– В mid-train ребята запихнули кучу данных с гитхаба, куда я думаю точно вошел SWE-bench Verified. Он обязательно войдет, если напрямую не делать деконтаминацию. Поэтому хочется посмотреть на качество модели на более свежем бенчмарке.

Пока, кстати, читал блогпост, увидел, что 2 недели назад на лидерборде Verified новый лидер – 78.8% с моделью Doubao-Seed-Code от bytedance. Со дня на день увидим очередной релиз значит.

👍9❤2

2.38K viewsAlex Golubev, 13:41

AI[ex]Time

1.95K views14:13

AI[ex]Time

Together выложили заметку про их подход (ATLAS) к использованию адаптивного спекулятора – пример того, в какую сторону можно развивать классическую идею спекулятивного декодирования, чтобы выжимать бОльший перформанс в практических кейсах.

Классический speculative decoding заключается в следующем: мы обучаем легкую модель-драфтер предсказывать сразу много токенов наперед. Далее основная модель может делать быструю верификацию этих токенов: вместо того чтобы авторегрессионно генерировать по одному токену за шаг, она получает от драфтера целую последовательность (например, 5-10 токенов) и проверяет их все параллельно за один forward pass:

1. Основная модель вычисляет, какие токены она бы сама сгенерировала на каждом шаге.
2. Сравнивает свою последовательность с предложенной драфтером.
3. Принимается самый длинный отрезок-префикс, в котором предсказания совпали.
4. Если драфтер угадал все, например, 5 токенов, мы получаем 5 токенов за один проход основной модели.
5. Если совпал только первый, а на втором ошибка — принимается этот один токен, а следующий за ним генерирует уже основная модель.

Эта схема гарантирует, что качество генерации не страдает, и результат всегда идентичен тому, что выдала бы основная модель. Это направление уже довольно сильно развилось от оригинальной статьи до Medusa (учим отдельные головы на каждый следующий токен) и EAGLE 1/2/3 (там чуть сложнее и в EAGLE-3 подход сильно поменялся по сравнению с первой версией). Насколько я понимаю, EAGLE-3 – сота или около сота сейчас в целом.

В блогпосте Together пытаются решить проблему статичности, так как обычно спекулятор хорош в тех задачах, на которых его обучали. ATLAS добавляет совсем маленький, но обучаемый драфтер предсказывать токены, более подходящие под конкретный контекст. Далее поверх двух спекуляторов стоит controller, который на основании уверенности предсказаний, во-первых, выбирает, из какого спекулятора брать драфты токенов, а, во-вторых, определяет, сколько токенов наперед сейчас имеет смысл предсказывать.

👍5❤2

2.49K views14:13

AI[ex]Time

Для всех, кому было интересно видеть семейство Claude на swe-rebench – в релизе за сентябрь добавили Claude Opus 4.1 + Claude Sonnet 4.5. Получить кредиты от Антропика оказалось тем еще упражнением 😕
Заодно прогнали и gpt5-codex. Теперь также есть вкладка Insights, внутри которой отражаются интересные наблюдения, которые могут бы не заметны просто из лидерборда. Например, Sonnet4.5 решил 3 задачи, которые не были решены ни одной другой моделью: python-trio/trio-3334, cubed-dev/cubed-799, canopen-python/canopen-613.

https://swe-rebench.com/?insight=sep_2025

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13🔥3

2.13K views08:36

AI[ex]Time

1.58K views19:27

AI[ex]Time

Недавно удалось чуть-чуть погрузиться в Tinker (спасибо коллеге, который сделал обзор). Помимо общего положительного впечатления, одна вещь в дизайне платформы мне особенно понравилась – имплементация поддержки кастомных лосс-функций.

Пару слов о Tinker – это API, которым вы пользуетесь для обучения LLM. Вы пишете скрипт с подгрузкой данных и логикой обучения (включая лосс и эвалы), но весь инференс и обучение (sample, forward, backward, save_model) происходят на серверах Thinking Machines. То есть вы можете запустить скрипт на локальном компьютере с CPU и хорошим интернетом и на нем тюнить DeepSeek. Точнее, не весь DeepSeek, а только лоры. На это есть любопытная причина: для высокой утилизации GPU нужны большие батчи, особенно для MoE, а с лорами можно эффективно инференсить все еще одну LLM для пользователей с разными тюнами. Небольшой тред от одного из разработчиков Tinker в эту же тему. Вот пример скрипта, как может выглядеть обучение SFT.

Так вот по умолчанию Tinker дает доступ к трем лоссам: cross_entropy, importance_sampling и ppo, но вы можете заимплементировать любой свой, который будет принимать на вход (data: tensor, logprobs: tensor). Первое, что ожидаешь увидеть в таком случае – пользовательский код будет сериализовываться и отправляться по сети исполняться на сервере. Но здесь появляется очень элегантное, на мой взгляд, решение: forward_backward_custom. Forward_pass с сервера возвращает вам логпробы, по которым вы локально считаете лосс и производные, но только dLoss/dLogprobs (весов-то у вас нет). Далее, при вызове backward, сервер еще раз делает forward, считает новый лосс sum(logprobs * dLoss/dLogprobs) и по нему апдейтит веса модели. Цена за это – два forward pass’а и, как следствие, 1.5x FLOPS на шаг. Но зато Тинкеру не нужно вообще никак связываться со сторонним кодом.

Другое интересное архитектурное решение – это Clock Cycles, но об этом возможно напишу в другой раз.

🔥18

10.7K views19:28

AI[ex]Time

Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения.

Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘

Gemini 3 Pro на подходе.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍2

9.28K views19:48

AI[ex]Time

1.45K views16:32

AI[ex]Time

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:

1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны:
– gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal.
– gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется.
– Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео.
– DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀
– Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей.
– Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо.
2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах.
3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍7🔥3🍾1

7.95K views16:33

AI[ex]Time

Фича Gemini 3 Pro, про которую я говорил в посте выше. Прикрепляя ссылку на ютуб, оно нативно подается на вход и пишет число токенов, которое тратится. На 2-2.5 часа уходит примерно 700-800к токенов, то есть близко к пределу в 1M.

Очень нравится разгребать видео, которые давно лежат и вроде хотелось бы посмотреть, но не так сильно, чтобы тратить столько времени.

👍20😁2🔥1

1.66K viewsedited 14:34

AI[ex]Time

Forwarded from commit history

🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта.

> Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях.

> Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете.

> Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов.

> RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте)

> Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench.

> Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров.

Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories

Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b

Пост в x: https://x.com/ibragim_bad/status/2003423706861936856

P.S. Прошу поддержать пост в x, если у вас есть аккаунт!

❤2

1.34K views13:12

AI[ex]Time

В рамках одного из проектов, где мы строим scaffolding-agnostic инфраструктуру, накопилось достаточно большое кол-во агентских траекторий, которые мы посчитали будет полезно выложить. И сразу же возник вопрос: а насколько можно прокачать модель в SWE, сделав простой rejection fine-tuning на траекториях Qwen3-480B-Coder. Оказалось, что очень даже неплохо – тянет на сильный бейзлайн в других экспериментах.

Собрав множество деталей и багов запуска с OpenHands, сделали еще небольшой чеклист, как репортить замеры, чтобы было воспроизводимо – репортов вида openhands maxiter=100 недостаточно 😕️️️️️️

А главные цифры можно увидеть у Ибрагима 👆

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3

1.89K viewsedited 13:12

AI[ex]Time

За последнее время пришлось углубиться в спекулятивный декодинг и прочитать с десяток статей. Некоторыми из них, которые показались мне интересными и при этом не базовыми, захотелось поделиться:

GRIFFIN: Effective Token Alignment for Faster Speculative Decoding. Во время обучения драфт моделей, у нас происходит training-inference misalignment, потому что во время трейна все токены получены из таргетной модели, в то время как во время инференса токены получаются из драфт модели авторегресионно. Статья предлагает, на мой взгляд, немного костыльный способ борьбы с этим, но сама проблема – интересная, и про нее кажется не так много пишут.

Block Verification Accelerates Speculative Decoding. Просто очень классный взгляд на процесс верификации, когда от rejection sampling на уровне каждого токена, мы переходим на уровень целого предсказанного блока.

DistillSpec: Improving Speculative Decoding via Knowledge Distillation. Изучает различные виды divergences для дистилляции таргетной модели в драфтерную, все-таки KL loss – не единственный вариант учить такие модели.

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling. Тк драфт модели сейчас делаются довольно маленькими, language head занимает существенную часть времени во время инференса. Авторы предлагают делать словарь намного меньше, убирая нечастотные токены и для драфтера использовать такие обрубленные словари. Кстати, EAGLE3, которые выходят в опенсорс, часто используют уже эту оптимизацию. Например, популярная коллекция от RedHat.

Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion. Очень интересное направление, чтобы для драфтинга использовать диффузионные модели, которые на первый взгляд очень хорошо ложатся в данную задачу, но несут много дополнительных вопросов. По этой статье можно найти еще серию интересных связанных, и уже есть продолжение работы – SpecDiff2.

RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees. На инференсе драфт токены уже давно не предсказываются одной цепочкой. Вместо этого генерируется сразу дерево вариантов, которое потом проверяется основной моделью. Эта тема уходит отдельно еще в оптимизационную составляющую, тк чтобы эффективно пропустить все цепочки из дерева за один forward pass модели, нужно использовать tree mask attention. Но здесь в работе изучается сам процесс построения деревьев и применение RL к этой задаче.

В свое время Илья давал ссылки на интересные статьи с ACL25, часть1 и часть2.

Для тех, кому интересно разобраться с нуля, статьи, с которых можно начать:

Оригинальная статья, Medusa, Eagle 1, Eagle 2, Eagle 3.

Если что-то знаете из того, что стоит почитать по теме, присылайте!

⚡9👍3

1.95K viewsedited 18:21

AI[ex]Time

А теперь угадайте, сколько подач на ICML 2026

> 34k

💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚12🤯8😱5

1.04K views11:24

About

Blog

Apps

Platform