🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro.
Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста
Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.
Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним
Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели
Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.
Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста
Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.
Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним
Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели
Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.
Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
NVIDIA анонсировала, о чем расскажет на конференции NeurIPS, которая началась сегодня и пройдет до 7 декабря в Сан-Диего.
NVIDIA DRIVE Alpamayo-R1, или сокращенно AR1.
Это первая в мире открытая ризонинг-VLA модель специально для исследований в области автопилотов. Модель построена на базе NVIDIA Cosmos Reason и отлично поддается дообучению с помощью RL.
Alpamayo-R1 будет доступна на GitHub и Hugging Face, а фреймворк AlpaSim для тестов уже опубликован.
Cosmos Cookbook - руководство с рецептами для физического ИИ и генерации синтетических данных и оценки моделей.
LidarGen - "модель мира", которая генерирует данные лидаров для симуляций.
Omniverse NuRec Fixer - инструмент мгновенного исправления артефактов в нейронных реконструкциях а робототехнике и БПЛА.
ProtoMotions3 - открытый фреймворк на базе Isaac Lab, позволяющий тренировать цифровых людей с невероятно реалистичной физикой.
MultiTalker Parakeet - модель для ASR нескольких спикеров даже в быстром темпе и с перекрытиями.
В паре с ней идет Sortformer - инструмент для диаризации, т. е. разделения спикеров в аудиопотоке в реальном времени.
Ну и, конечно, NeMo Gym - библиотека для создания сред обучения с RL в комплекте с NeMo Data Designer, комплексом для создания и проверки синтетических наборов данных.
К конференции NVIDIA подготовила более 70 научных работ. Вот лишь несколько жемчужин из этого списка:
Audio Flamingo 3. Это большая аудио-языковая модель, которая может "понимать" и анализировать аудиозаписи длительностью до 10 минут.
Minitron-SSM. Техника прунинга, которая позволила уменьшить модель Nemotron-H 8B с 8 до 4 млрд. параметров, при этом удвоив скорость инференса.
ProRL, или Prolonged Reinforcement Learning. Концепция, которая доказала, что продление процесса RL выводит модели на совершенно новый уровень в ризонинге.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ OpenAI вводит «code red»: новый reasoning-модель уже на следующей неделе
OpenAI объявила внутренний «code red» - компания временно перераспределяет людей и мощности, чтобы сфокусироваться на усилении ChatGPT на фоне растущей конкуренции со стороны Google и других игроков.
Главное:
• Новый reasoning-модель выходит уже на следующей неделе — по внутренним тестам она обгоняет Google Gemini 3 и станет основой для Thinking Mode и Deep Research.
• Приоритет — качество продукта, а не монетизация: рекламные пилоты (включая шопинг-рекламу) продолжаются, но масштабный запуск отложен, пока команда улучшает персонализацию и UX для аудитории в 800+ млн пользователей в неделю.
• В рамках «code red» OpenAI усиливает персонализацию, ускоряет ответы, снижает число ненужных отказов и улучшает поведение моделей, чтобы повысить позиции ChatGPT в лидербордах вроде LMArena.
• Отдельный фокус — генерация изображений: после сильного релиза Google Nano Banana Pro OpenAI хочет удержать конкурентоспособность Imagegen в творческих и коммерческих сценариях.
• Стратегические ставки огромны: ChatGPT обслуживает ~70% глобальной «assistant-активности» и около 10% поиска. OpenAI рассчитывает удвоить выручку ($10B → $20B → ~$35B к 2027 году) и привлечь около $100B инвестиций на фоне давления со стороны Google и Anthropic.
Неделя обещает быть жаркой - впереди один из самых важных релизов OpenAI за год.
https://www.theinformation.com/articles/openai-ceo-declares-code-red-combat-threats-chatgpt-delays-ads-effort
OpenAI объявила внутренний «code red» - компания временно перераспределяет людей и мощности, чтобы сфокусироваться на усилении ChatGPT на фоне растущей конкуренции со стороны Google и других игроков.
Главное:
• Новый reasoning-модель выходит уже на следующей неделе — по внутренним тестам она обгоняет Google Gemini 3 и станет основой для Thinking Mode и Deep Research.
• Приоритет — качество продукта, а не монетизация: рекламные пилоты (включая шопинг-рекламу) продолжаются, но масштабный запуск отложен, пока команда улучшает персонализацию и UX для аудитории в 800+ млн пользователей в неделю.
• В рамках «code red» OpenAI усиливает персонализацию, ускоряет ответы, снижает число ненужных отказов и улучшает поведение моделей, чтобы повысить позиции ChatGPT в лидербордах вроде LMArena.
• Отдельный фокус — генерация изображений: после сильного релиза Google Nano Banana Pro OpenAI хочет удержать конкурентоспособность Imagegen в творческих и коммерческих сценариях.
• Стратегические ставки огромны: ChatGPT обслуживает ~70% глобальной «assistant-активности» и около 10% поиска. OpenAI рассчитывает удвоить выручку ($10B → $20B → ~$35B к 2027 году) и привлечь около $100B инвестиций на фоне давления со стороны Google и Anthropic.
Неделя обещает быть жаркой - впереди один из самых важных релизов OpenAI за год.
https://www.theinformation.com/articles/openai-ceo-declares-code-red-combat-threats-chatgpt-delays-ads-effort
Главные новости ИИ и МЛ!
✔️ Anthropic покупает создателей скоростного JavaScript-рантайма.
Компания объявила о приобретении Bun — популярного инструментария для запуска и сборки JavaScript-приложений. Технологии и команда стартапа станут фундаментом для дальнейшего масштабирования платформы Claude Code.
Bun, основанный Джаредом Самнером в 2021 году, завоевал популярность как экстремально быстрая альтернатива Node.js, объединяющая в себе рантайм, пакетный менеджер, бандлер и тестовый раннер.
Bun останется опенсорсным проектом под лицензией MIT. Anthropic обещает продолжить инвестировать в инструмент, сохраняя его статус независимого и универсального решения для JS/TS-экосистемы.
anthropic.com
✔️ AWS представила 3-нм чипы Trainium3 и серверы UltraServer.
Это третье поколение тензорных процессоров Amazon. Trainium3, изготовленный по 3-нм техпроцессу, показывает буст по производительности до 4.4x и энергоэффективности в 4 раза по сравнению с Trainium 2. Архитектура чипа поддерживает новые форматы данных MXFP8 и MXFP4.
UltraServer - это вычислительный узел, объединяющий 144 чипа с общим объемом памяти 20.7 ТБ HBM3e и агрегированной пропускной способностью 706 ТБ/с. Такие серверы можно объединять в кластеры EC2 UltraClusters масштабом более 1 млн. чипов.
Также AWS потизерила будущий Trainium 4: следующее поколение чипов получит совместимость с GPU NVIDIA через шину NVLink Fusion.
aws.amazon.com
✔️ vLLM-Omni: расширение экосистемы vLLM.
Команда vLLM анонсировала релиз vLLM-Omni, расширения, созданного для адаптации инфраструктуры под omni-модели, которые могут бесшовно работать с текстом, изображениями, видео и аудио в рамках одного процесса.
Архитектура vLLM-Omni предлагает полностью переработанный поток данных. Система использует дезагрегированный пайплайн, объединяющий 3 этапа: мультимодальные энкодеры, логическое ядро на базе vLLM и генераторы.
vLLM-Omni может эффективно оркестрировать сложные гетерогенные рабочие процессы и параллельно выполнять вычисления. Фреймворк сохраняет простоту внедрения, поддерживая полную совместимость с OpenAI API и Hugging Face.
blog.vllm.ai
✔️ SGLang получил поддержку NVIDIA Model Optimizer.
Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.
Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн. Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.
lmsys.org
✔️ Artificial Analysis запустила индекс открытости ИИ-моделей.
Openness Index — новый стандарт оценки ИИ, который отделяет настоящий опен-сорс от моделей, которые лишь притворяются открытыми. Рейтинг анализирует проекты по 2 направлениям: доступность весов и прозрачность процесса разработки (методология и датасеты для пре- и пост-трейна).
Верхние строчки рейтинга заняли китайские разработки. Среди коммерческих решений хороший результат показала Nemotron Nano 9B v2 (67 баллов), а вот полностью закрытые проприетарные модели ожидаемо остались на дне рейтинга с оценками в 1–5 баллов. Лидером списка стала модель OLMo с показателем 89.
Индекс наглядно подсвечивает проблему термина «open weights»: модели, публикующие только веса без контекста, теряют баллы на прозрачности.
Artificial Analysis в сети Х
Компания объявила о приобретении Bun — популярного инструментария для запуска и сборки JavaScript-приложений. Технологии и команда стартапа станут фундаментом для дальнейшего масштабирования платформы Claude Code.
Bun, основанный Джаредом Самнером в 2021 году, завоевал популярность как экстремально быстрая альтернатива Node.js, объединяющая в себе рантайм, пакетный менеджер, бандлер и тестовый раннер.
Bun останется опенсорсным проектом под лицензией MIT. Anthropic обещает продолжить инвестировать в инструмент, сохраняя его статус независимого и универсального решения для JS/TS-экосистемы.
anthropic.com
Это третье поколение тензорных процессоров Amazon. Trainium3, изготовленный по 3-нм техпроцессу, показывает буст по производительности до 4.4x и энергоэффективности в 4 раза по сравнению с Trainium 2. Архитектура чипа поддерживает новые форматы данных MXFP8 и MXFP4.
UltraServer - это вычислительный узел, объединяющий 144 чипа с общим объемом памяти 20.7 ТБ HBM3e и агрегированной пропускной способностью 706 ТБ/с. Такие серверы можно объединять в кластеры EC2 UltraClusters масштабом более 1 млн. чипов.
Также AWS потизерила будущий Trainium 4: следующее поколение чипов получит совместимость с GPU NVIDIA через шину NVLink Fusion.
aws.amazon.com
Команда vLLM анонсировала релиз vLLM-Omni, расширения, созданного для адаптации инфраструктуры под omni-модели, которые могут бесшовно работать с текстом, изображениями, видео и аудио в рамках одного процесса.
Архитектура vLLM-Omni предлагает полностью переработанный поток данных. Система использует дезагрегированный пайплайн, объединяющий 3 этапа: мультимодальные энкодеры, логическое ядро на базе vLLM и генераторы.
vLLM-Omni может эффективно оркестрировать сложные гетерогенные рабочие процессы и параллельно выполнять вычисления. Фреймворк сохраняет простоту внедрения, поддерживая полную совместимость с OpenAI API и Hugging Face.
blog.vllm.ai
Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.
Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн. Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.
lmsys.org
Openness Index — новый стандарт оценки ИИ, который отделяет настоящий опен-сорс от моделей, которые лишь притворяются открытыми. Рейтинг анализирует проекты по 2 направлениям: доступность весов и прозрачность процесса разработки (методология и датасеты для пре- и пост-трейна).
Верхние строчки рейтинга заняли китайские разработки. Среди коммерческих решений хороший результат показала Nemotron Nano 9B v2 (67 баллов), а вот полностью закрытые проприетарные модели ожидаемо остались на дне рейтинга с оценками в 1–5 баллов. Лидером списка стала модель OLMo с показателем 89.
Индекс наглядно подсвечивает проблему термина «open weights»: модели, публикующие только веса без контекста, теряют баллы на прозрачности.
Artificial Analysis в сети Х
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Anthropic acquires Bun as Claude Code reaches $1B milestone
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
✔️ OpenAI нашла способ заставить модели признаваться в собственных галлюцинациях — в новом исследовании представили технику под названием Confessions.
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/
Главные новости и мира ИИ и МЛ.
✔️ OpenAI придумала, как заставить модель сообщать о своих галлюцинациях.
OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.
Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.
Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com
✔️ Amazon представила семейство моделей Nova и инструменты для создания ИИ-агентов.
Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.
Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com
✔️ Выходцы из Tesla, Google и Nvidia запустили стартап UMA.
Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .
В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.
UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com
✔️ KlingAI обновила видеогенератор до версии 2.6.
Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.
Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com
✔️ Opera интегрировала Gemini в десктопные браузеры One и GX.
Поддержка Gemini тестировалась исключительно в экспериментальной ветке Opera Neon, а теперь стала доступной в Opera One и геймерском Opera GX. Интеграция реализована через боковую панель.
Ассистент получил доступ к контексту браузера: он может анализировать содержимое активных веб-страниц, групп вкладок и видео, выполняя по запросу саммари или сравнительный анализ контента. Заявлена полноценная мультимодальность: движок обрабатывает не только текст, но и голосовые команды, изображения и загруженные файлы.
Техническая часть тоже изменилась. Разработчики перенесли в основные браузеры новую архитектуру с агентным подходом, изначально обкатанную в Neon. Это позволило увеличить скорость генерации ответов на 20%.
prnewswire.com
@ai_machinelearning_big_data
OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.
Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.
Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com
Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.
Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com
Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .
В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.
UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com
Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.
Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com
Поддержка Gemini тестировалась исключительно в экспериментальной ветке Opera Neon, а теперь стала доступной в Opera One и геймерском Opera GX. Интеграция реализована через боковую панель.
Ассистент получил доступ к контексту браузера: он может анализировать содержимое активных веб-страниц, групп вкладок и видео, выполняя по запросу саммари или сравнительный анализ контента. Заявлена полноценная мультимодальность: движок обрабатывает не только текст, но и голосовые команды, изображения и загруженные файлы.
Техническая часть тоже изменилась. Разработчики перенесли в основные браузеры новую архитектуру с агентным подходом, изначально обкатанную в Neon. Это позволило увеличить скорость генерации ответов на 20%.
prnewswire.com
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
How confessions can keep language models honest
We’re sharing an early, proof-of-concept method that trains models to report when they break instructions or take unintended shortcuts.
🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538