🚀 Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса
Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса.
Главное:
это не “распознавание + текст + озвучка”.
Это end-to-end система, где разговор идёт напрямую голосом.
Что обещают по характеристикам:
- ⚡️ <150 мс задержка end-to-end (почти как живой звонок)
- 🧬 качественный voice cloning по нескольким секундам аудио
- 📈 схожесть голоса SIM = 0.817 (практически идентичный)
- 🧠 reasoning всего на 4B параметров
- 🔓 полностью открытые веса + код
И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе.
Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам.
Paper: https://modelscope.cn/papers/2601.11141
Model: https://modelscope.cn/models/FlashLabs/Chroma-4B
Code: https://huggingface.co/FlashLabs/Chroma-4B
@data_analysis_ml
Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса.
Главное:
это не “распознавание + текст + озвучка”.
Это end-to-end система, где разговор идёт напрямую голосом.
Что обещают по характеристикам:
- ⚡️ <150 мс задержка end-to-end (почти как живой звонок)
- 🧬 качественный voice cloning по нескольким секундам аудио
- 📈 схожесть голоса SIM = 0.817 (практически идентичный)
- 🧠 reasoning всего на 4B параметров
- 🔓 полностью открытые веса + код
И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе.
Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам.
Paper: https://modelscope.cn/papers/2601.11141
Model: https://modelscope.cn/models/FlashLabs/Chroma-4B
Code: https://huggingface.co/FlashLabs/Chroma-4B
@data_analysis_ml
🔥19❤11👍6🥱1
Sequoia выпустила отчёт с тезисом, что по их ощущениям мы уже вошли в эпоху AGI.
Главное не«разум как человек», а в том, что системы начали самостоятельно разбираться с задачами без постоянного пошагового контроля.
Главный драйвер - long-horizon agents: агенты, которые могут долго выполнять работу, исправлять ошибки, возвращаться после тупиков и продолжать движение к цели.
Sequoia объясняет “умение разобраться самому” через 3 компонента:
1) Pre-training (знания)
То, что дала волна ChatGPT 2022 года - модели получили огромный запас знаний и базовую языковую компетентность.
2) Inference-time compute (больше рассуждений при ответе)
Следующий шаг - модели, которые «думают дольше», прежде чем отвечать (в отчёте это связывают с линией OpenAI o1 в конце 2024).
3) Agent loops (итерации)
Самое новое - агенты, которые умеют:
- составить план,
- использовать инструменты,
- хранить состояние,
- делать несколько попыток, пока не дойдут до результата.
В качестве примера упоминаются инструменты уровня Claude Code.
Один из кейсов в отчёте - рекрутинг:
агент получает задачу найти кандидатов, дальше сам ищет, фильтрует по сигналам, перепроверяет источники и пишет текст для outreach.
В отчёте это занимает около 31 минуты - чтобы показать работу через гипотезы, ошибки и корректировки.
Технически Sequoia разделяет прогресс на две ветки:
- RL (reinforcement learning) - учит модель более длинному и связному поведению;
- agent harnesses - внешняя “обвязка”: память, handoff между шагами, ограничения и guardrails.
Итог: фокус смещается от чатботов к системам, которые могут долго и автономно выполнять задачи, а не просто отвечать на вопросы.
https://sequoiacap.com/article/2026-this-is-agi/
Главное не«разум как человек», а в том, что системы начали самостоятельно разбираться с задачами без постоянного пошагового контроля.
Главный драйвер - long-horizon agents: агенты, которые могут долго выполнять работу, исправлять ошибки, возвращаться после тупиков и продолжать движение к цели.
Sequoia объясняет “умение разобраться самому” через 3 компонента:
1) Pre-training (знания)
То, что дала волна ChatGPT 2022 года - модели получили огромный запас знаний и базовую языковую компетентность.
2) Inference-time compute (больше рассуждений при ответе)
Следующий шаг - модели, которые «думают дольше», прежде чем отвечать (в отчёте это связывают с линией OpenAI o1 в конце 2024).
3) Agent loops (итерации)
Самое новое - агенты, которые умеют:
- составить план,
- использовать инструменты,
- хранить состояние,
- делать несколько попыток, пока не дойдут до результата.
В качестве примера упоминаются инструменты уровня Claude Code.
Один из кейсов в отчёте - рекрутинг:
агент получает задачу найти кандидатов, дальше сам ищет, фильтрует по сигналам, перепроверяет источники и пишет текст для outreach.
В отчёте это занимает около 31 минуты - чтобы показать работу через гипотезы, ошибки и корректировки.
Технически Sequoia разделяет прогресс на две ветки:
- RL (reinforcement learning) - учит модель более длинному и связному поведению;
- agent harnesses - внешняя “обвязка”: память, handoff между шагами, ограничения и guardrails.
Итог: фокус смещается от чатботов к системам, которые могут долго и автономно выполнять задачи, а не просто отвечать на вопросы.
https://sequoiacap.com/article/2026-this-is-agi/
👍10❤6🔥3❤🔥2🤣1
Навыки аналитики выходит за рамки одной профессии
Работа с данными становится частью разных ролей: от маркетинга до управления продуктами.
Поэтому аналитические навыки ценятся не только у дата-специалистов.
На программе «Аналитика данных» от МФТИ и Нетологии вы последовательно разберёте весь путь работы с данными: от сбора и обработки до анализа и визуализации. В программе — Python, базы данных и базовые методы ИИ.
Обучение проходит онлайн и подойдёт тем, кто хочет войти в аналитику или систематизировать знания. После выпуска вы получаете дипломы МФТИ и Нетологии и готовое портфолио проектов.
Начать учиться → https://netolo.gy/ew7j
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xDB9UM
Работа с данными становится частью разных ролей: от маркетинга до управления продуктами.
Поэтому аналитические навыки ценятся не только у дата-специалистов.
На программе «Аналитика данных» от МФТИ и Нетологии вы последовательно разберёте весь путь работы с данными: от сбора и обработки до анализа и визуализации. В программе — Python, базы данных и базовые методы ИИ.
Обучение проходит онлайн и подойдёт тем, кто хочет войти в аналитику или систематизировать знания. После выпуска вы получаете дипломы МФТИ и Нетологии и готовое портфолио проектов.
Начать учиться → https://netolo.gy/ew7j
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xDB9UM
❤2👍1🥱1
🚀 Создание и управление агентами с LangGraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
❤6👍5🔥1
⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
❤13👍9🔥6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25🔥8😁8👍7
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
❤8👍4🔥1
Сообщается, что модель показала около 31% на бенчмарке FrontierMath - и особенно впечатляет не только сам результат, но и то, как она решает новые задачи, а не просто повторяет известные шаблоны.
Многие исследователи отмечают, что:
- модель справляется с задачами, которые выглядят как “по-настоящему новые”
- подходы к решению становятся всё более похожими на исследовательское рассуждение
- уровень рассуждений вызывает интерес даже у профессиональных математиков
Особый фокус сейчас на экспертных отчётах и разборах, где преподаватели и исследователи описывают, какие именно типы задач модель решает хорошо, а где всё ещё есть ограничения.
Если темп сохранится, следующий релиз (условный GPT-5.3) может снова сдвинуть планку возможностей. Пока же самое интересное, читать детальные отчёты и смотреть, как ИИ постепенно заходит на территорию, которая раньше считалась исключительно “человеческой”.
https://x.com/EpochAIResearch/status/2014769359747744200
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤4
🚀 Step-DeepResearch - новый уровень AI-исследований
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
❤7👍5🔥1
Почему модель с точностью 99% может оказаться бесполезной
Знакомая ситуация: вы обучили модель, она показывает отличные результаты на обучающей выборке, вы радуетесь. А потом запускаете её на новых данных — и она промахивается мимо всего. Это называется переобучение, и это одна из самых частых проблем в машинном обучении.
Суть вот в чём: модель не научилась находить закономерности. Она просто запомнила обучающую выборку целиком — вместе с шумом, выбросами и случайными совпадениями. Представьте студента, который выучил ответы на все вопросы из сборника, но не понял саму тему. На экзамене ему попадаются новые задачи — и он проваливается.
С моделью происходит то же самое. Она подстраивает свои параметры так, чтобы идеально описать каждую точку в обучающей выборке. В итоге она становится слишком сложной и теряет способность обобщать.
И вот тут начинается математика. Чтобы бороться с переобучением, нужно понимать, как оно возникает. Есть регуляризация — это когда мы добавляем в функцию ошибки штраф за слишком большие веса. Есть ранняя остановка — когда мы прекращаем обучение до того, как модель успеет запомнить данные. Но чтобы всё это правильно применять, нужно понимать, почему это работает.
Канал «Зачем мне эта математика» как раз про это. Там разбирают, как устроены модели изнутри, почему они ломаются и как это чинить. Без занудства, на понятных примерах.
Подписывайтесь!
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqvye6My
Знакомая ситуация: вы обучили модель, она показывает отличные результаты на обучающей выборке, вы радуетесь. А потом запускаете её на новых данных — и она промахивается мимо всего. Это называется переобучение, и это одна из самых частых проблем в машинном обучении.
Суть вот в чём: модель не научилась находить закономерности. Она просто запомнила обучающую выборку целиком — вместе с шумом, выбросами и случайными совпадениями. Представьте студента, который выучил ответы на все вопросы из сборника, но не понял саму тему. На экзамене ему попадаются новые задачи — и он проваливается.
С моделью происходит то же самое. Она подстраивает свои параметры так, чтобы идеально описать каждую точку в обучающей выборке. В итоге она становится слишком сложной и теряет способность обобщать.
И вот тут начинается математика. Чтобы бороться с переобучением, нужно понимать, как оно возникает. Есть регуляризация — это когда мы добавляем в функцию ошибки штраф за слишком большие веса. Есть ранняя остановка — когда мы прекращаем обучение до того, как модель успеет запомнить данные. Но чтобы всё это правильно применять, нужно понимать, почему это работает.
Канал «Зачем мне эта математика» как раз про это. Там разбирают, как устроены модели изнутри, почему они ломаются и как это чинить. Без занудства, на понятных примерах.
Подписывайтесь!
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqvye6My
👍5❤2
🤖 ИИ превращает учёных в “конвейеры по выпуску статей”
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
🔥8❤2😁2👍1