GigaDev — разработка GigaChat – Telegram
GigaDev — разработка GigaChat
7.55K subscribers
27 photos
1 video
45 links
Истории и статьи про разработку GigaChat от команды разработчиков. Мы рассказываем про все, что связано с языком, речью и искусственным интеллектом
Download Telegram
MiMo-Audio: GPT-3 moment for speech domain

github
| demo | huggingface

На днях LLM команда Xiaomi опубликовала в открытый доступ MiMo-Audio — 7b LLM с нативной поддержкой понимания и генерации речи. Основные особенности модели:
- единые дискретные токены для понимания и генерации
- предобучение на 100+ миллионах часов речи (для сравнения: Kimi-Audio — 13M часов; Whisper-large-v3 — 1M часов)

В этом посте мы кратко опишем подход и полученные результаты

Токенизация аудио
Для кодирования аудио авторы используют Transformer (1.2B) с RVQ токенизацией. В нем одна секунда аудио кодируется 25 токенами в каждом из R=8 кодбуков.
Одна из проблем в токенизации аудио — компромисс между кодированием семантики и акустических особенностей. Для ее решения применяют multi-task обучение в 2 этапа
1) обучение токенизатора на реконструкцию исходной аудиозаписи (акустика) + audio captioning с помощью LLM (семантика), 11M часов
2) с замороженным энкодером и квантизатором (которые подстроились под семантическое пространство LLM) доучивают декодер и вокодер для улучшения качества реконструкции

Добавление модальностей в текстовую LLM
- для каждого из R=8 уровней RVQ инициализируют таблицу эмбеддингов
- аудио данные сильно разрежены, одна секунда кодируется 25 токенами, для выравнивания с токенами текста добавляют PatchEncoder, который сжимает (seq_len=4)x(R=8) токенов в один эмбеддинг
- из финального скрытого состояния LLM генерируется как текстовый токен, так и аудио токены, для последних добавляют PatchDecoder: 16-layer Transformer, 8 lm-head'ов для каждого уровня RVQ, MusicGen-like задержка по времени между уровнями квантизации

Pre-training
Про данные сказано только то, что их 100M+ часов, они разнообразные и фильтрованные

Инициализируют модель весами MiMo и учат в 2 этапа
1) Understanding Training. Добавляют к LLM PatchEncoder и учат все веса модели. 1.2T текстовых токенов + 1.4T аудио. Loss вычисляется только по текстовым токенам. Задачи: speech-text interleaved; speech recognition (ASR); audio captioning; text pre-training
2) Understanding-Generation Joint Training. Добавляют PatchDecoder и учат все веса модели. 2.6T текстовых токенов + 2.4T аудио. Задачи: speech continuation; speech-text interleaved; ASR; text-to-speech (TTS); instruct TTS; text pre-training

Результаты:
- наблюдают GPT-3 moment: на масштабе ~1T токенов MiMo-Audio способна решать задачи, которых не было в обучении, во few-shot режиме (например, speech-to-speech translation; voice conversion)
- минимальная деградация MMLU в сценарии text-to-text и speech-to-speech (72.5 vs 69.1)

Post-training
Используют как фильтрованный open-source, так и внутренние данные. Суммарно 100B токенов в следующих форматах: ASR, TTS, audio understanding, spoken dialogue, instruct TTS, text dialogue

Результаты:
- обходит open-source того же размера и приближается к уровню Gemini 2.5 Flash на бенчмарках понимания аудио (MMAU, MMAU-Pro, MMAR)
- на Speech-to-Speech бенчмарке Big Bench Audio обходит open-source модели на 7+ пунктов, но отстает на 14 пунктов от Gemini 2.5 Flash Live
- на InstructTTSEval (оценка с помощью Gemini) обходит GPT-4o-mini-tts на английском и китайском

Обсуждение
👍 первая open-source модель в audio, обученная на таком масштабе данных
👍 минимальный gap между MMLU в режиме text-to-text (72.5) и speech-to-speech (69.1)
👍 результат на Big Bench Audio уровня первых версий GPT-4o realtime
😐 нет описания пайплайна данных / распределения языков
😐 ни одного ablation study
😐 3.76% Word Error Rate на LibriSpeech-test-clean после post-train'а на 100B токенах ( ~4.5M часов речи). У мультиязычного Whisper-large-v2 — 2.7%
22🔥11👍7🤓2😍1
📆Команда GigaChat Audio едет в Нижний Новгород с митапом про речевые технологии

В программе — живые истории о том, как исследования становятся работающими сервисами:
🔘prod-ready распознавание речи на ограниченном наборе данных
🔘speaker diarization: распознавание по голосам в реальном времени
🔘быстрые команды с произвольной структурой для low-resource сценария колонок
🔘суммаризация трёхчасовых видео в GigaChat

В финале вечера — нетворкинг с ребятами из нашей команды.

📆 3 октября, 18:00
📍 Нижний Новгород, «Гараж»

🖥Регистрация и программа уже на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28😍9🤝6👾4😎2
💫 Выкладываем open-source модели для RAG и генерации контента

Сегодня открываем новые модели для свободного использования! Тестируйте гипотезы, встраивайте в продукты, адаптируйте под свои задачи — без ограничений.

У нас два обновления:

🧭 Эмбеддинги
Новая версия 3B модели, которая смогла с большим отрывом занять топ-1 место на бенчмарке ruMTEB!

🎬 Генеративные модели
Картинки и видео для тех, кто делает контент: можно быстро проверить идею, собрать промо-материалы, добавить визуала.
Первая компактная версия Lite (2B) линейки Kandinsky-5 Video — запустится не только на мощном железе.

Скоро расскажем подробнее!
🔥3813👍8👏3🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Kandinsky 5.0 Video Lite — открываем компактную модель для генерации видео

Начинаем с рассказа про видео! Встречайте первую модель из линейки Kandinsky-5 Video!

Генерация видео — это всё ещё вызов. Если фотореалистичные картинки уже можно создавать на обычном железе, то качественные видео требуют топовых GPU и огромных моделей. Мы решили это изменить.

Что мы открываем
Kandinsky 5.0 Video Lite — компактная модель всего в 2B параметров, которая генерирует качественные видео по тексту. И да, она работает не только на мощном железе!

В открытом доступе четыре версии для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD):
• SFT — максимальное качество (основная версия)
• CFG-distilled — в 2 раза быстрее
• Diffusion-distilled — в 6 раз быстрее с минимальной потерей качества
• Pretrain — для исследователей и дообучения

🔧 Как мы этого добились (подробнее на хабр)
• Обучили на 520 млн изображений и 125 млн видео-сцен
• Сфокусировались на качестве: команда художников и дизайнеров отобрала лучшие данные для финальной настройки
• Разработали метод NABLA для стабильной 10-секундной генерации
• Использовали архитектуру DiT с flow matching

📊 Результаты впечатляют
По нашим тестам, SFT-версия превосходит модели в 5-14 раз больше по размеру (Wan 2.1 14B, Wan 2.2 5B) и сравнима по качеству с Wan 2.2 A14B, которая весит в 13 раз больше.

🚀 Начните использовать уже сегодня
• Лицензия поддерживает коммерческое использование
• Доступно через бота: @kandinsky_access_bot
• Все материалы на GitVerse, HuggingFace и GitHub


📚 Полезные ссылки:
Хабр статья
Демо и примеры
Код на GitHub
Модели на HuggingFace
NABLA paper
→ Бот для доступа @kandinsky_access_bot
🔥35👍1815❤‍🔥3👏1
🚀 Обновление Giga-Embeddings: лидер ruMTEB и открытая лицензия

Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.

📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.

🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.

⚙️ Как попробовать за 60 секунд
# pip install sentence-transformers
from sentence_transformers import SentenceTransformer
m = SentenceTransformer(
"ai-sage/Giga-Embeddings-instruct",
model_kwargs={"trust_remote_code": "True"},
config_kwargs={"trust_remote_code": "True"}
)

def get_detailed_instruct(task_denoscription: str, query: str) -> str:
return f'Instruct: {task_denoscription}\nQuery:{query}'

task = 'Дан вопрос, необходимо найти среди документов ответ'

queries = [get_detailed_instruct(task, "Как настроить доступ к базе знаний?")]
documents = [
"Чтобы настроить доступ к базе знаний вам нужно открыть инструкцию по онбордингу саппорта, и в выпадающем списке найти...",
"Чтобы убрать звуки, вибрацию и световое оповещение в iPhone, активируйте беззвучный режим или режим «не беспокоить»."
]
emb_queries = m.encode(queries)
emb_documents = m.encode(documents)
print(emb_queries @ emb_documents.T)


📚 Полезные ссылки:
GitVerse
HF
🔥40❤‍🔥12🏆9👍4👏1
📆GigaChat Audio Day Nizhniy

🚀В начале октября ездили командой речевых технологий в Нижний Новгород с митапом. Поделились нашими разработками, познакомились с интересными ребятами и очень продуктивно провели время в столице закатов.

➡️Записи докладов уже доступны VK | YouTube

🔘Как мы сделали production ASR для новых языков на 10 часах данных (Андрей Кузьменко)
🔘Распознавание речи по спикерам в SaluteSpeech: от моделей и алгоритмов до production-оптимизаций (Никита Ноев и Михаил Кузьмин)
🔘Быстрые команды (Юлия Кокорина и Максим Сурков)
🔘GigaChat Audio: как мы добавили поддержку суммаризации видео длительностью 3 часа в мультимодальной LLM (Григорий Фёдоров)

Смотрите, ставьте лайки, приходите на наши будущие мероприятия: следующее пройдёт в Москве уже в декабре — stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3116❤‍🔥10👍4🏆2
One Day Offer в GigaChat Audio
📅 15 ноября 2025, онлайн
➡️ регистрация

Перед нашей платформой стоят амбициозные вызовы, а также запуски новых продуктов. Поэтому мы усиливаем core команды опытными Deep Learning инженерами и Data Science специалистами. Приглашаем вас на One Day Offer уже в следующую субботу! Там вы сможете познакомиться с командами и получить оффер всего за 2 технические секции + финальное интервью.

Над какими вызовами предстоит работать:
— нативное понимание видео в GigaChat
— масштабирование предобучения Audio Foundation Model
— end-to-end модель для real-time speech-to-speech диалога
— ASR в новых доменах, LLM-based ASR
— агентные системы и LLM-пайплайны для системы речевой аналитики
— on-device multimodal LLM


До встречи на One Day Offer!
➡️ регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍116🌚2👎1
GigaAM-v3: новый уровень качества, пунктуация, нормализация

➡️ GitHub | HuggingFace | GitVerse

В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3.

Что публикуем
🔘GigaAM-v3 — foundation audio encoder (база для дообучения).
🔘GigaAM-v3-CTC — улучшенная CTC модель распознавания, быстрый инференс
🔘GigaAM-v3-RNNT — улучшенная RNNT модель распознавания, лучшее качество
🔘GigaAM-v3-e2e-CTC — распознавание с пунктуацией и нормализацией, быстрый инференс
🔘GigaAM-v3-e2e-RNNT — распознавание с пунктуацией и нормализацией, максимальное качество

Пример e2e-вывода: В твоём каталоге есть первая серия сезона 14 «Где логика»?

Что нового в v3
🔘Масштаб предобучения: 50k → 700k часов аудио на русском языке.
🔘Новые домены в обучении ASR: колл-центр, музыкальные запросы, речь с особенностями, разговорная речь (суммарно 2k часов).
🔘Для всего корпуса обучающих данных восстановлены пунктуация и нормализация при помощи GigaChat Max Audio.
🔘Линейка CTC/RNNT + e2e — выбирайте скорость или максимум качества под свой сценарий.

Метрики
🔘 Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
🔘 Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
🔘 Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет.
🔘 Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice).


Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot.

Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5221👍8😱3
📆Делимся секретами про наш новый синтез речи

У нас случился релиз GigaTTS. Это наша новая модель синтеза, под капотом у нее GigaChat 3b, свой токенизатор речи, адаптер к LLM и всего 30к часов данных.

Метрики космические: новая модель нравится людям в 2-4 раза чаще старой, а по естественности она почти всегда живее. Написали подробный технический обзор на Хабр.

Фичи нового синтеза
🔘Естественная freespeech подача, неотличимая от живого человека
🔘Специальные голоса телефонных операторов – таких голосов нет ни у кого
🔘Клонирование голосов, обогнали 11labs instant vc по похожести
🔘Озвучивание текстов бесконечной длины без потери контекста (multiturn режим синтеза)
🔘Инструктивный синтез, где можно задать словами все нюансы эмоций, в том числе сарказм

Послушать новый синтез можно в голосовом режиме GigaChat Voice Mode
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3412🤩6🏆4👍2
🏆 GigaChat 3 Ultra Preview & Lightning: открытые MoE-модели нового поколения

В этом году мы уже радовали вас новой линейкой GigaChat 2, добавлением Reasoning в наш Web (giga.chat), опенсорсом GigaChat Lite и Giga-Embeddings и первым местом на бенчмарке ruMTEB.

Что нового в этот раз? Впервые в России обучены MoE-модели такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение огромных MoE-модели требует не только колоссальных вычислительных ресурсов, но и решения множества инженерных вызовов: от нестабильности вычислений с плавающей точкой до оптимизации межузловой коммуникации и балансировки нагрузки между экспертами.

Поэтому сегодня мы открываем веса двух флагманских MoE-моделей — GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B) — полностью доступных сообществу с лицензией для коммерческого использования.

GigaChat 3 Ultra Preview
🔘702B параметров (36B активных на токен)
🔘Работает быстрее GigaChat 2 Max
🔘Топ-1 на MERA
🔘Поддерживает контекст в 131 тысячу токенов

⚡️ Модель продолжает обучение — финальная версия будет еще мощнее!
GitVerse | HuggingFace | GitHub

GigaChat 3 Lightning
🔘10B параметров (1.8B активных)
🔘Достигла уровня лидера open-source своего класса — Qwen3-4B со скоростью генерации в 1.5 раз выше, как у Qwen3-1.7B
🔘Идеальна в качестве легковесного помощника для локального использования (офлайн-ассистент, прототипирование)
🔘Поддерживает контекст в 256 тысяч токенов
GitVerse | HuggingFace | GitHub

Обе модели
• Не являются reasoning моделями
• Умеют предсказывать сразу несколько токенов
• Другой вид механизма внимания снижает размер KV cache
• Обучены с нуля — без инициализации чужими весами
• Открытые веса и лицензия c возможностью коммерческого использования
• Полностью совместимы с Hugging Face, vLLM / SGLang и стандартными пайплайнами


✈️Подробнее можно прочитать в статье на Habr.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👏19👍11🙏1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Хотите больше информации про наши последние релизы?

10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).
От архитектур и метрик до подходов, решений и планов на будущее.

Будут доклады от инженеров, разборы под капотом, постерная сессия с командами и возможность задать любые технические вопросы тем, кто эти модели создаёт.

Мы делаем формат максимально полезным для тех, кто работает с ML, данными, исследовательскими пайплайнами или инфраструктурой.

Присоединяйтесь офлайн или онлайн, участие бесплатное.
➡️Вот ссылка на регистрацию.

Будем рады видеть всех 10 декабря.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29109👍4🤩3
Салют, Гига!

Мы выкатили программу на 10 декабря — она уже лежит на сайте.

У нас два зала.
В большом — основные релизы, архитектуры, истории изнутри и постерная сессия с командами.

В малом — почти непрерывный техно-контент на весь день. Получилось очень плотно и качественно.

Участие бесплатное, но по регистрации.
Можно прийти офлайн в Москве или подключиться онлайн.

Увидимся в ГигаГороде!
🔥28👍115💅3🤝1
GigaAM-v3 на Хабре

➡️ Хабр

Спешим поделиться постом о создании GigaAM-v3!

В статье много технических деталей для специалистов:
🔘 Распределение данных по доменам
🔘 Эксперименты с масштабирование модели по параметрам
🔘 Сравнение токенизаторов
🔘 Анализ ошибок end-to-end моделей
🔘 LLM-as-a-judge для распознавания речи

По пути к релизу GigaAM-v3 ворвалась в top trending ASR-моделей на HuggingFace, обогнав свежий релиз OmniLingual ASR 🚀


👉 Приходите на «Салют, Гига!» — там вы сможете вживую пообщаться с разработчиками GigaAM, задать вопросы по статье, узнать детали обучения мультиязычного GigaAM Max и обсудить, как мы модифицировали HuBERT-CTC для использования в GigaChat Audio.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3712👍8