🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@ai_machinelearning_big_data
#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@ai_machinelearning_big_data
#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
Media is too big
VIEW IN TELEGRAM
⚡️ Runway представили новый видеогенератор **Gen-4.5** - заметный шаг вперёд по качеству и управляемости видео.
Что улучшили:
- более детализированное и чистое изображение
- реалистичную динамику и движения объектов
- улучшенную физику, освещение и поведение материалов
- точное следование промпту, включая сложные сцены
Gen-4.5 уверенно работает с быстрыми движениями, сложными ракурсами и умеет контролировать камеру, композицию, звук и другие параметры сцены.
Поддерживаются разные стили-— от фотореализма до пластилиновой анимации.
Что может:
- Image-to-Video
- Video-to-Video
- Keyframes
- Управление движением камеры
Runway заявляет, что скорость и потребление ресурсов сопоставимы с Gen-4, но качество заметно выше.
На сайте модель пока помечена как *soon*, цены ещё не отображаются, API пока недоступен. Доступ пользователям будут открывать постепенно.
По метрикам тоже впечатляет: Gen-4.5 набрала 1 247 Elo в рейтинге *Artificial Analysis Text-to-Video*, установив новый рекорд и обойдя все существующие AI-модели для генерации видео.
Анонс: https://app.runwayml.com/video-tools/
@ai_machinelearning_big_data
#runway #runwayml #gen45 #gen4_5 #videogen #ai_
Что улучшили:
- более детализированное и чистое изображение
- реалистичную динамику и движения объектов
- улучшенную физику, освещение и поведение материалов
- точное следование промпту, включая сложные сцены
Gen-4.5 уверенно работает с быстрыми движениями, сложными ракурсами и умеет контролировать камеру, композицию, звук и другие параметры сцены.
Поддерживаются разные стили-— от фотореализма до пластилиновой анимации.
Что может:
- Image-to-Video
- Video-to-Video
- Keyframes
- Управление движением камеры
Runway заявляет, что скорость и потребление ресурсов сопоставимы с Gen-4, но качество заметно выше.
На сайте модель пока помечена как *soon*, цены ещё не отображаются, API пока недоступен. Доступ пользователям будут открывать постепенно.
По метрикам тоже впечатляет: Gen-4.5 набрала 1 247 Elo в рейтинге *Artificial Analysis Text-to-Video*, установив новый рекорд и обойдя все существующие AI-модели для генерации видео.
Анонс: https://app.runwayml.com/video-tools/
@ai_machinelearning_big_data
#runway #runwayml #gen45 #gen4_5 #videogen #ai_
❤1
🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro.
Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста
Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.
Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним
Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели
Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.
Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста
Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.
Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним
Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели
Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.
Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
NVIDIA анонсировала, о чем расскажет на конференции NeurIPS, которая началась сегодня и пройдет до 7 декабря в Сан-Диего.
NVIDIA DRIVE Alpamayo-R1, или сокращенно AR1.
Это первая в мире открытая ризонинг-VLA модель специально для исследований в области автопилотов. Модель построена на базе NVIDIA Cosmos Reason и отлично поддается дообучению с помощью RL.
Alpamayo-R1 будет доступна на GitHub и Hugging Face, а фреймворк AlpaSim для тестов уже опубликован.
Cosmos Cookbook - руководство с рецептами для физического ИИ и генерации синтетических данных и оценки моделей.
LidarGen - "модель мира", которая генерирует данные лидаров для симуляций.
Omniverse NuRec Fixer - инструмент мгновенного исправления артефактов в нейронных реконструкциях а робототехнике и БПЛА.
ProtoMotions3 - открытый фреймворк на базе Isaac Lab, позволяющий тренировать цифровых людей с невероятно реалистичной физикой.
MultiTalker Parakeet - модель для ASR нескольких спикеров даже в быстром темпе и с перекрытиями.
В паре с ней идет Sortformer - инструмент для диаризации, т. е. разделения спикеров в аудиопотоке в реальном времени.
Ну и, конечно, NeMo Gym - библиотека для создания сред обучения с RL в комплекте с NeMo Data Designer, комплексом для создания и проверки синтетических наборов данных.
К конференции NVIDIA подготовила более 70 научных работ. Вот лишь несколько жемчужин из этого списка:
Audio Flamingo 3. Это большая аудио-языковая модель, которая может "понимать" и анализировать аудиозаписи длительностью до 10 минут.
Minitron-SSM. Техника прунинга, которая позволила уменьшить модель Nemotron-H 8B с 8 до 4 млрд. параметров, при этом удвоив скорость инференса.
ProRL, или Prolonged Reinforcement Learning. Концепция, которая доказала, что продление процесса RL выводит модели на совершенно новый уровень в ризонинге.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ OpenAI вводит «code red»: новый reasoning-модель уже на следующей неделе
OpenAI объявила внутренний «code red» - компания временно перераспределяет людей и мощности, чтобы сфокусироваться на усилении ChatGPT на фоне растущей конкуренции со стороны Google и других игроков.
Главное:
• Новый reasoning-модель выходит уже на следующей неделе — по внутренним тестам она обгоняет Google Gemini 3 и станет основой для Thinking Mode и Deep Research.
• Приоритет — качество продукта, а не монетизация: рекламные пилоты (включая шопинг-рекламу) продолжаются, но масштабный запуск отложен, пока команда улучшает персонализацию и UX для аудитории в 800+ млн пользователей в неделю.
• В рамках «code red» OpenAI усиливает персонализацию, ускоряет ответы, снижает число ненужных отказов и улучшает поведение моделей, чтобы повысить позиции ChatGPT в лидербордах вроде LMArena.
• Отдельный фокус — генерация изображений: после сильного релиза Google Nano Banana Pro OpenAI хочет удержать конкурентоспособность Imagegen в творческих и коммерческих сценариях.
• Стратегические ставки огромны: ChatGPT обслуживает ~70% глобальной «assistant-активности» и около 10% поиска. OpenAI рассчитывает удвоить выручку ($10B → $20B → ~$35B к 2027 году) и привлечь около $100B инвестиций на фоне давления со стороны Google и Anthropic.
Неделя обещает быть жаркой - впереди один из самых важных релизов OpenAI за год.
https://www.theinformation.com/articles/openai-ceo-declares-code-red-combat-threats-chatgpt-delays-ads-effort
OpenAI объявила внутренний «code red» - компания временно перераспределяет людей и мощности, чтобы сфокусироваться на усилении ChatGPT на фоне растущей конкуренции со стороны Google и других игроков.
Главное:
• Новый reasoning-модель выходит уже на следующей неделе — по внутренним тестам она обгоняет Google Gemini 3 и станет основой для Thinking Mode и Deep Research.
• Приоритет — качество продукта, а не монетизация: рекламные пилоты (включая шопинг-рекламу) продолжаются, но масштабный запуск отложен, пока команда улучшает персонализацию и UX для аудитории в 800+ млн пользователей в неделю.
• В рамках «code red» OpenAI усиливает персонализацию, ускоряет ответы, снижает число ненужных отказов и улучшает поведение моделей, чтобы повысить позиции ChatGPT в лидербордах вроде LMArena.
• Отдельный фокус — генерация изображений: после сильного релиза Google Nano Banana Pro OpenAI хочет удержать конкурентоспособность Imagegen в творческих и коммерческих сценариях.
• Стратегические ставки огромны: ChatGPT обслуживает ~70% глобальной «assistant-активности» и около 10% поиска. OpenAI рассчитывает удвоить выручку ($10B → $20B → ~$35B к 2027 году) и привлечь около $100B инвестиций на фоне давления со стороны Google и Anthropic.
Неделя обещает быть жаркой - впереди один из самых важных релизов OpenAI за год.
https://www.theinformation.com/articles/openai-ceo-declares-code-red-combat-threats-chatgpt-delays-ads-effort
Главные новости ИИ и МЛ!
✔️ Anthropic покупает создателей скоростного JavaScript-рантайма.
Компания объявила о приобретении Bun — популярного инструментария для запуска и сборки JavaScript-приложений. Технологии и команда стартапа станут фундаментом для дальнейшего масштабирования платформы Claude Code.
Bun, основанный Джаредом Самнером в 2021 году, завоевал популярность как экстремально быстрая альтернатива Node.js, объединяющая в себе рантайм, пакетный менеджер, бандлер и тестовый раннер.
Bun останется опенсорсным проектом под лицензией MIT. Anthropic обещает продолжить инвестировать в инструмент, сохраняя его статус независимого и универсального решения для JS/TS-экосистемы.
anthropic.com
✔️ AWS представила 3-нм чипы Trainium3 и серверы UltraServer.
Это третье поколение тензорных процессоров Amazon. Trainium3, изготовленный по 3-нм техпроцессу, показывает буст по производительности до 4.4x и энергоэффективности в 4 раза по сравнению с Trainium 2. Архитектура чипа поддерживает новые форматы данных MXFP8 и MXFP4.
UltraServer - это вычислительный узел, объединяющий 144 чипа с общим объемом памяти 20.7 ТБ HBM3e и агрегированной пропускной способностью 706 ТБ/с. Такие серверы можно объединять в кластеры EC2 UltraClusters масштабом более 1 млн. чипов.
Также AWS потизерила будущий Trainium 4: следующее поколение чипов получит совместимость с GPU NVIDIA через шину NVLink Fusion.
aws.amazon.com
✔️ vLLM-Omni: расширение экосистемы vLLM.
Команда vLLM анонсировала релиз vLLM-Omni, расширения, созданного для адаптации инфраструктуры под omni-модели, которые могут бесшовно работать с текстом, изображениями, видео и аудио в рамках одного процесса.
Архитектура vLLM-Omni предлагает полностью переработанный поток данных. Система использует дезагрегированный пайплайн, объединяющий 3 этапа: мультимодальные энкодеры, логическое ядро на базе vLLM и генераторы.
vLLM-Omni может эффективно оркестрировать сложные гетерогенные рабочие процессы и параллельно выполнять вычисления. Фреймворк сохраняет простоту внедрения, поддерживая полную совместимость с OpenAI API и Hugging Face.
blog.vllm.ai
✔️ SGLang получил поддержку NVIDIA Model Optimizer.
Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.
Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн. Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.
lmsys.org
✔️ Artificial Analysis запустила индекс открытости ИИ-моделей.
Openness Index — новый стандарт оценки ИИ, который отделяет настоящий опен-сорс от моделей, которые лишь притворяются открытыми. Рейтинг анализирует проекты по 2 направлениям: доступность весов и прозрачность процесса разработки (методология и датасеты для пре- и пост-трейна).
Верхние строчки рейтинга заняли китайские разработки. Среди коммерческих решений хороший результат показала Nemotron Nano 9B v2 (67 баллов), а вот полностью закрытые проприетарные модели ожидаемо остались на дне рейтинга с оценками в 1–5 баллов. Лидером списка стала модель OLMo с показателем 89.
Индекс наглядно подсвечивает проблему термина «open weights»: модели, публикующие только веса без контекста, теряют баллы на прозрачности.
Artificial Analysis в сети Х
Компания объявила о приобретении Bun — популярного инструментария для запуска и сборки JavaScript-приложений. Технологии и команда стартапа станут фундаментом для дальнейшего масштабирования платформы Claude Code.
Bun, основанный Джаредом Самнером в 2021 году, завоевал популярность как экстремально быстрая альтернатива Node.js, объединяющая в себе рантайм, пакетный менеджер, бандлер и тестовый раннер.
Bun останется опенсорсным проектом под лицензией MIT. Anthropic обещает продолжить инвестировать в инструмент, сохраняя его статус независимого и универсального решения для JS/TS-экосистемы.
anthropic.com
Это третье поколение тензорных процессоров Amazon. Trainium3, изготовленный по 3-нм техпроцессу, показывает буст по производительности до 4.4x и энергоэффективности в 4 раза по сравнению с Trainium 2. Архитектура чипа поддерживает новые форматы данных MXFP8 и MXFP4.
UltraServer - это вычислительный узел, объединяющий 144 чипа с общим объемом памяти 20.7 ТБ HBM3e и агрегированной пропускной способностью 706 ТБ/с. Такие серверы можно объединять в кластеры EC2 UltraClusters масштабом более 1 млн. чипов.
Также AWS потизерила будущий Trainium 4: следующее поколение чипов получит совместимость с GPU NVIDIA через шину NVLink Fusion.
aws.amazon.com
Команда vLLM анонсировала релиз vLLM-Omni, расширения, созданного для адаптации инфраструктуры под omni-модели, которые могут бесшовно работать с текстом, изображениями, видео и аудио в рамках одного процесса.
Архитектура vLLM-Omni предлагает полностью переработанный поток данных. Система использует дезагрегированный пайплайн, объединяющий 3 этапа: мультимодальные энкодеры, логическое ядро на базе vLLM и генераторы.
vLLM-Omni может эффективно оркестрировать сложные гетерогенные рабочие процессы и параллельно выполнять вычисления. Фреймворк сохраняет простоту внедрения, поддерживая полную совместимость с OpenAI API и Hugging Face.
blog.vllm.ai
Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.
Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн. Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.
lmsys.org
Openness Index — новый стандарт оценки ИИ, который отделяет настоящий опен-сорс от моделей, которые лишь притворяются открытыми. Рейтинг анализирует проекты по 2 направлениям: доступность весов и прозрачность процесса разработки (методология и датасеты для пре- и пост-трейна).
Верхние строчки рейтинга заняли китайские разработки. Среди коммерческих решений хороший результат показала Nemotron Nano 9B v2 (67 баллов), а вот полностью закрытые проприетарные модели ожидаемо остались на дне рейтинга с оценками в 1–5 баллов. Лидером списка стала модель OLMo с показателем 89.
Индекс наглядно подсвечивает проблему термина «open weights»: модели, публикующие только веса без контекста, теряют баллы на прозрачности.
Artificial Analysis в сети Х
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Anthropic acquires Bun as Claude Code reaches $1B milestone
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
✔️ OpenAI нашла способ заставить модели признаваться в собственных галлюцинациях — в новом исследовании представили технику под названием Confessions.
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/
Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.
Как работает Confessions:
1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.
Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.
Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.
https://openai.com/index/how-confessions-can-keep-language-models-honest/