⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
❤13👍9🔥6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤27🔥8😁8👍7
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
❤9👍5🔥1
Сообщается, что модель показала около 31% на бенчмарке FrontierMath - и особенно впечатляет не только сам результат, но и то, как она решает новые задачи, а не просто повторяет известные шаблоны.
Многие исследователи отмечают, что:
- модель справляется с задачами, которые выглядят как “по-настоящему новые”
- подходы к решению становятся всё более похожими на исследовательское рассуждение
- уровень рассуждений вызывает интерес даже у профессиональных математиков
Особый фокус сейчас на экспертных отчётах и разборах, где преподаватели и исследователи описывают, какие именно типы задач модель решает хорошо, а где всё ещё есть ограничения.
Если темп сохранится, следующий релиз (условный GPT-5.3) может снова сдвинуть планку возможностей. Пока же самое интересное, читать детальные отчёты и смотреть, как ИИ постепенно заходит на территорию, которая раньше считалась исключительно “человеческой”.
https://x.com/EpochAIResearch/status/2014769359747744200
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥6❤4
🚀 Step-DeepResearch - новый уровень AI-исследований
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
❤10👍8🔥1
Почему модель с точностью 99% может оказаться бесполезной
Знакомая ситуация: вы обучили модель, она показывает отличные результаты на обучающей выборке, вы радуетесь. А потом запускаете её на новых данных — и она промахивается мимо всего. Это называется переобучение, и это одна из самых частых проблем в машинном обучении.
Суть вот в чём: модель не научилась находить закономерности. Она просто запомнила обучающую выборку целиком — вместе с шумом, выбросами и случайными совпадениями. Представьте студента, который выучил ответы на все вопросы из сборника, но не понял саму тему. На экзамене ему попадаются новые задачи — и он проваливается.
С моделью происходит то же самое. Она подстраивает свои параметры так, чтобы идеально описать каждую точку в обучающей выборке. В итоге она становится слишком сложной и теряет способность обобщать.
И вот тут начинается математика. Чтобы бороться с переобучением, нужно понимать, как оно возникает. Есть регуляризация — это когда мы добавляем в функцию ошибки штраф за слишком большие веса. Есть ранняя остановка — когда мы прекращаем обучение до того, как модель успеет запомнить данные. Но чтобы всё это правильно применять, нужно понимать, почему это работает.
Канал «Зачем мне эта математика» как раз про это. Там разбирают, как устроены модели изнутри, почему они ломаются и как это чинить. Без занудства, на понятных примерах.
Подписывайтесь!
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqvye6My
Знакомая ситуация: вы обучили модель, она показывает отличные результаты на обучающей выборке, вы радуетесь. А потом запускаете её на новых данных — и она промахивается мимо всего. Это называется переобучение, и это одна из самых частых проблем в машинном обучении.
Суть вот в чём: модель не научилась находить закономерности. Она просто запомнила обучающую выборку целиком — вместе с шумом, выбросами и случайными совпадениями. Представьте студента, который выучил ответы на все вопросы из сборника, но не понял саму тему. На экзамене ему попадаются новые задачи — и он проваливается.
С моделью происходит то же самое. Она подстраивает свои параметры так, чтобы идеально описать каждую точку в обучающей выборке. В итоге она становится слишком сложной и теряет способность обобщать.
И вот тут начинается математика. Чтобы бороться с переобучением, нужно понимать, как оно возникает. Есть регуляризация — это когда мы добавляем в функцию ошибки штраф за слишком большие веса. Есть ранняя остановка — когда мы прекращаем обучение до того, как модель успеет запомнить данные. Но чтобы всё это правильно применять, нужно понимать, почему это работает.
Канал «Зачем мне эта математика» как раз про это. Там разбирают, как устроены модели изнутри, почему они ломаются и как это чинить. Без занудства, на понятных примерах.
Подписывайтесь!
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqvye6My
👍6❤5🥱2
🤖 ИИ превращает учёных в “конвейеры по выпуску статей”
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
🔥16❤6👍3😁3
Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
❤9👍7🔥3
Forwarded from Machinelearning
Пока
В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:
Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.
Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.
Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.
Ключевые моменты трансляции
Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.
ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.
Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.
Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.
Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.
В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.
Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.
Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.
Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.
Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.
Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.
Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.
Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.
Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.
Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥3🌚1
🚀 DeepPlanning - новый бенчмарк о QWEN для проверки долгосрочного агентного планирования в задачах, приближенных к реальности.
Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:
⏱ Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения
Примеры задач:
✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана
И вот где становится особенно интересно - даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.
Этот бенчмарк отлично показывает реальный уровень:
- Agent Planning
- Tool Use
- Long-Horizon Reasoning
То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.
Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning
@data_analysis_ml
Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:
⏱ Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения
Примеры задач:
✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана
И вот где становится особенно интересно - даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.
Этот бенчмарк отлично показывает реальный уровень:
- Agent Planning
- Tool Use
- Long-Horizon Reasoning
То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.
Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning
@data_analysis_ml
❤7👍4🔥4