GigaDev — разработка GigaChat – Telegram
GigaDev — разработка GigaChat
7.55K subscribers
27 photos
1 video
45 links
Истории и статьи про разработку GigaChat от команды разработчиков. Мы рассказываем про все, что связано с языком, речью и искусственным интеллектом
Download Telegram
🎧 Быстрые команды — большой релиз для умных колонок Sber

Привет, друзья! Рассказали на Хабре про новую фичу — быстрые команды для наших умных колонок SberBoom для управления самой колонкой, телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее. Теперь вам больше не придётся каждый раз повторять волшебное слово «Салют», чтобы изменить громкость или управлять устройствами умного дома.

🔥 Что умеют наши быстрые команды?

Распознают команды даже без произнесённого споттера («Салют»).
Работают локально на устройствах, увеличивая скорость отклика.
Поддерживают множественные синонимы одной команды («Тише», «Потише», «Еще тише»).
Позволяют многократно повторить одну простую команду без остановок («громче-громче-громче»).

Вот некоторые примеры поддерживаемых команд:

Громкость 36%
Яркость 90% в коридоре
Красный свет в зале
Следующий
Выключи ночник в спальне
Темнее

🥇 Чем мы гордимся?

Нам удалось реализовать всё это, уложившись всего лишь в 6 мегабайт пространства на диске устройства! А ведь наша основная задача заключалась именно в минимизации потребления ресурсов и сохранении высокой точности обработки команд.

👍 Почему это круто?

Теперь использование голосовых ассистентов становится намного приятнее и эффективнее. Вместо постоянного повторения ключевых слов, ваша техника моментально отреагирует на любые запросы и сделает вашу жизнь немного легче.

📌 Хочешь проверить новые возможности?

Просто скажи своему устройству: «Салют, включи все быстрые команды!»

Или зайдите в приложение Салют и активируйте новую функцию там.
🔥17👍105🥱2💊2
InterSpeech 2025 — презентуем GigaAM

Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥

📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения



📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👏16👍128🗿2
Всем привет!
Команда GigaChat растёт, и мы ищем больше специалистов для решения интересных задач! 🚀

30 августа проведём One Day Offer сразу по четырём направлениям: Pretrain, Alignment, Vision, Prod ML Data.

Чем предстоит заниматься:

⚙️ Pretrain — учим гигантские нейросети (сотни миллиардов и больше параметров). Работаем с распределённым обучением на суперкомпьютерах, ускоряем обучение и экспериментируем с архитектурами.
🧠 Alignment — берём эти же модели и делаем их полезными: дообучаем на инструкциях, подключаем RLHF/online RL, улучшаем reasoning способности.
🖼️ Vision / Multimodal — всё, что связано с изображениями и видео: от распознавания документов до мультимодальных ассистентов (текст + картинка + видео + действия).
📊 Prod ML Data — команда, которая готовит данные для GigaChat во всех модальностях: текст, изображения, аудио. Здесь — сбор и фильтрация данных, пайплайны разметки, анализ качества моделей, развитие ASR и звуковых навыков GigaChat.

Что вас ждёт:

🔘 знакомство с командами
🔘 технические секции и живой диалог
🔘 быстрый фидбек по итогам

Как подать заявку?
Pretrain и Alignment → одна заявка на оба трека. Регистрируйтесь на One Day Offer или пишите в лс @olga_arkhypova
Vision / Multimodal → пиши в лс @olga_arkhypova
Prod ML Data → пиши в лс @olga_arkhypova
Если пишете в лс, укажите в какой трек вы хотите подать заявку!

Также можно писать в наше сообщество личным сообщением.

P.S. Даже если сомневаетесь — приходите, расскажем про процессы и стек 🙂
🔥19🗿15👍10🤝5👎4
📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech

Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.

В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.

В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.

Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.

Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.

Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition
13🔥8🏆5👍4❤‍🔥2
📝 Инсайты с InterSpeech: Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding

В статье авторы предлагают метод для ускорения синтеза речи на основе популярной модели CosyVoice 2. Она состоит из токенизатора текста и речи, авторегрессивной модели Qwen2.5 0.5B и Flow Matching декодера. Во время инференса ~70% времени уходит на авторегрессивную генерацию токенов, поэтому авторы оптимизируют этот этап. Для ускорения применяют Speculative Decoding

Чем интересна эта работа: она подчеркивает неоднозначность токенов, которые порождают speech tokenizer'ы. Авторы делают предположение, что в отличие от NLP разные последовательности токенов речи могут приводить к одинаковому качеству звучания речи после декодинга. Следовательно, можно смягчить критерий отбора токенов и дополнительно ускорить генерацию

Что делают на практике?
В классическом Speculative Decoding есть медленная и качественная Target Model q(.|.) и быстрая Draft Model p(.|.). С помощью Draft Model авторегрессивно генерируют токены. С помощью Target Model вычисляют вероятностные распределения для всех сгенерированных префиксов за один проход. Далее выполняют Rejection Sampling, чтобы итоговая последовательность соответствовала распределению Target Model:
r ~ uniform(0, 1)

accept x if r < min(1, q(x) / p(x))

else x ~ normalize(max(0, q(x) - p(x)))


Вся схема работает, поскольку:
1) авторегрессивная генерация memory-bound и сгенерировать один токен стоит примерно столько же, что и проверить префикс из нескольких токенов
2) многие токены довольно просто сгенерировать, емкость Target Model для них избыточна
3) схема с Rejection Sampling помогает оставаться в распределении Target Model

Для генерации токенов аудио авторы вводят tolerance factor β >= 0 и модифицируют критерий следующим образом:
r ~ uniform(0, 1)

accept x if r < min(1, q(x) / p(x)) + β


Это позволяет смягчить критерий принятия токенов от Draft Model и добиться лучшей производительности системы при том же качестве синтеза речи. Варьируя β, можно регулировать компромисс между качеством и скоростью

В качестве Target Model выступает трансформер на 24 слоя, Draft Model инициализируют последними 6 слоями (19–24), и дообучают только нижние 2 слоя + lm head


Каких результатов удалось добиться?
Для оценки качества используют объективные (WER: Word Error Rate, Speaker Similarity, NMOS) и субъективные (Mean Opinion Score) метрики. Дообучение Draft Model проводили на датасете LibriTTS, на нем же оценивают качество.

Для оценки производительности используют LM Real Time Factor — отношение времени, которое потребовалось для генерации токенов аудио, к длительности аудио.

Авторы приходят к тому, что оптимально генерировать 3 токена с помощью Draft Model и использовать β=0.4

У исходной CosyVoice 2 WER составляет 3.67%, у Draft Model — 16.13%. Speculative Decoding с подобранными параметрами позволяет достичь WER ~ 5.7% и ускорить генерацию на 40% (LM-RTF 0.50 → 0.36). Деградацию WER после Speculative Decoding авторы связывают с датасетом LibriTTS, на котором дообучали Draft Model. Он примерно в 300 раз меньше проприетарного датасета, который использовался в CosyVoice 2.

Важно отметить, что увеличение β приводит к росту производительности без ушудшения качества, что подтверждает гипотезу об отсутствии однозначного кодирования с помощью аудио токенов.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы туториалов и обзорных докладов:
- Beyond End-to-End ASR: Integrating Long-Context Acoustic and Linguistic Insights
- Conversational Agent: Towards Building Collaborative Partners
9🔥8👍3❤‍🔥2🤔2
📝 Инсайты с InterSpeech: SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
code | demo

На конференции было представлено около 10 работ по speech-to-speech диалоговым моделям на основе LLM, если не считать обзорные доклады. Одной из самых интересных нам показалась работа Nvidia, которую разберем в этом посте

Модель
Для понимания входного аудиопотока авторы используют стриминговый энкодер аудио (FastConformer-CTC 100M) с контекстом в будущее 80 миллисекунд.

В качестве основной модели выбрали TinyLlama-1.1B-chat.

Для генерации речи используют NanoCodec — токенизатор аудио от Nvidia, который также был представлен отдельным докладом. Его основные особенности:
* использование FSQ и независимых кодбуков — в них нет иерархической структуры. Следовательно, их можно предсказывать параллельно из одного скрытого состояния LLM без задержки
* высокое качество при низком битрейте. Авторы экспериментируют с bitrate=0.6kbps и 12.5 токенами для кодирования одной секунды аудио

Для генерации токенов аудио расширяют словарь LLM + добавляют 4 головы для генерации токенов по каждому из кодбуков.

Как соединяют все вместе:
* на каждом шаге из одного скрытого состояния llm генерируется текстовый токен + 4 аудио токена из каждого кодбука
* LLM обуславливается на сгенерированные токены + входной сигнал от пользователя: эбмеддинг текстового токена складывается с эмбеддингами для генерируемых аудиотокенов и непрерывным эмбеддингом от пользователя. Таким образом, LLM говорит и слышит одновременно
* между генерируемыми текстовыми и аудио токенами нет выравнивания по времени: токены генерируются независимо, в текстовом канале токены кончаются раньше, после этого модель отдает паддинги. Авторы упоминают, что пробовали выравнивать генерируемые токены на уровне слов, но не увидели улучшений

Данные
Авторы используют исключительно синтетические данные:
* внутренний датасет распознавания речи → генерация ответа ассистента по текстовой транскрипции → синтез речи → 20 тысяч часов
* внутренний multi-turn текстовый SFT датасет → синтез речи → 3 тысячи часов
* Llama-3.1-70B-Instruct → 4-turn текстовые диалоги → синтез речи → 3.3 тысячи часов
* MS MARCO + Alpaca → TTS → 400 часов

Для обучения необходимы двухканальные аудиозаписи: реплики пользователя и реплики ассистента выравниваются с помощью семплированной тишины. Между окончанием пользовательской реплики и началом речи ассистента добавлялась задержа 640 миллисекунд.

Также авторы симулировали перебивания со стороны пользователя:
* из single-turn QA-пар составляли multi-turn с помощью конкатенации
* при конкатенации допускали перекрытие между вторым запросом пользователя и первым ответом ассистента
* в таком случае канал ассистента содержал ответ еще 640 миллисекунд, а дальше заполнялся тишиной


Оценка качества
Качество оценивают только in-domain: используют часть сгенерированных данных, которые не участвовали в обучении.

* Качество ответов: GPT score между референсом и распознанной репликой ассистента
* Barge-in Latency — время между началом речи пользователя и прекращением речи ассистента
* 1st Response Latency — время между окончанием запросом пользователя и началом ответа ассистента
* Качество генерирумой речи: UTMOS

Результаты
👍 лучше популярной Moshi: GPT score ответов выше, UTMOS генерируемой речи выше, Barge-in Latency ниже
👍 без огромного претрейна, multi-stage обучения и миллионов часов речи
👍 персонализацией NanoCodec (дообучение на 21k часов целевого спикера) удалось снизить битрейт в 2 раза и улучшить качество
😐 только in-domain оценка качества
😐 деградация качества ответов по сравнению с исходной LLM: на Alpaca QA, UltraChat GPT Score упал с 6-5 до 3-3.5
😐 1st Response Latency: 0.72-0.92 секунды
❤‍🔥99🔥7👍4👀1
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.


В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
🔥18👍11🥰5💅2💘2
MiMo-Audio: GPT-3 moment for speech domain

github
| demo | huggingface

На днях LLM команда Xiaomi опубликовала в открытый доступ MiMo-Audio — 7b LLM с нативной поддержкой понимания и генерации речи. Основные особенности модели:
- единые дискретные токены для понимания и генерации
- предобучение на 100+ миллионах часов речи (для сравнения: Kimi-Audio — 13M часов; Whisper-large-v3 — 1M часов)

В этом посте мы кратко опишем подход и полученные результаты

Токенизация аудио
Для кодирования аудио авторы используют Transformer (1.2B) с RVQ токенизацией. В нем одна секунда аудио кодируется 25 токенами в каждом из R=8 кодбуков.
Одна из проблем в токенизации аудио — компромисс между кодированием семантики и акустических особенностей. Для ее решения применяют multi-task обучение в 2 этапа
1) обучение токенизатора на реконструкцию исходной аудиозаписи (акустика) + audio captioning с помощью LLM (семантика), 11M часов
2) с замороженным энкодером и квантизатором (которые подстроились под семантическое пространство LLM) доучивают декодер и вокодер для улучшения качества реконструкции

Добавление модальностей в текстовую LLM
- для каждого из R=8 уровней RVQ инициализируют таблицу эмбеддингов
- аудио данные сильно разрежены, одна секунда кодируется 25 токенами, для выравнивания с токенами текста добавляют PatchEncoder, который сжимает (seq_len=4)x(R=8) токенов в один эмбеддинг
- из финального скрытого состояния LLM генерируется как текстовый токен, так и аудио токены, для последних добавляют PatchDecoder: 16-layer Transformer, 8 lm-head'ов для каждого уровня RVQ, MusicGen-like задержка по времени между уровнями квантизации

Pre-training
Про данные сказано только то, что их 100M+ часов, они разнообразные и фильтрованные

Инициализируют модель весами MiMo и учат в 2 этапа
1) Understanding Training. Добавляют к LLM PatchEncoder и учат все веса модели. 1.2T текстовых токенов + 1.4T аудио. Loss вычисляется только по текстовым токенам. Задачи: speech-text interleaved; speech recognition (ASR); audio captioning; text pre-training
2) Understanding-Generation Joint Training. Добавляют PatchDecoder и учат все веса модели. 2.6T текстовых токенов + 2.4T аудио. Задачи: speech continuation; speech-text interleaved; ASR; text-to-speech (TTS); instruct TTS; text pre-training

Результаты:
- наблюдают GPT-3 moment: на масштабе ~1T токенов MiMo-Audio способна решать задачи, которых не было в обучении, во few-shot режиме (например, speech-to-speech translation; voice conversion)
- минимальная деградация MMLU в сценарии text-to-text и speech-to-speech (72.5 vs 69.1)

Post-training
Используют как фильтрованный open-source, так и внутренние данные. Суммарно 100B токенов в следующих форматах: ASR, TTS, audio understanding, spoken dialogue, instruct TTS, text dialogue

Результаты:
- обходит open-source того же размера и приближается к уровню Gemini 2.5 Flash на бенчмарках понимания аудио (MMAU, MMAU-Pro, MMAR)
- на Speech-to-Speech бенчмарке Big Bench Audio обходит open-source модели на 7+ пунктов, но отстает на 14 пунктов от Gemini 2.5 Flash Live
- на InstructTTSEval (оценка с помощью Gemini) обходит GPT-4o-mini-tts на английском и китайском

Обсуждение
👍 первая open-source модель в audio, обученная на таком масштабе данных
👍 минимальный gap между MMLU в режиме text-to-text (72.5) и speech-to-speech (69.1)
👍 результат на Big Bench Audio уровня первых версий GPT-4o realtime
😐 нет описания пайплайна данных / распределения языков
😐 ни одного ablation study
😐 3.76% Word Error Rate на LibriSpeech-test-clean после post-train'а на 100B токенах ( ~4.5M часов речи). У мультиязычного Whisper-large-v2 — 2.7%
22🔥11👍7🤓2😍1
📆Команда GigaChat Audio едет в Нижний Новгород с митапом про речевые технологии

В программе — живые истории о том, как исследования становятся работающими сервисами:
🔘prod-ready распознавание речи на ограниченном наборе данных
🔘speaker diarization: распознавание по голосам в реальном времени
🔘быстрые команды с произвольной структурой для low-resource сценария колонок
🔘суммаризация трёхчасовых видео в GigaChat

В финале вечера — нетворкинг с ребятами из нашей команды.

📆 3 октября, 18:00
📍 Нижний Новгород, «Гараж»

🖥Регистрация и программа уже на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28😍9🤝6👾4😎2
💫 Выкладываем open-source модели для RAG и генерации контента

Сегодня открываем новые модели для свободного использования! Тестируйте гипотезы, встраивайте в продукты, адаптируйте под свои задачи — без ограничений.

У нас два обновления:

🧭 Эмбеддинги
Новая версия 3B модели, которая смогла с большим отрывом занять топ-1 место на бенчмарке ruMTEB!

🎬 Генеративные модели
Картинки и видео для тех, кто делает контент: можно быстро проверить идею, собрать промо-материалы, добавить визуала.
Первая компактная версия Lite (2B) линейки Kandinsky-5 Video — запустится не только на мощном железе.

Скоро расскажем подробнее!
🔥3813👍8👏3🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Kandinsky 5.0 Video Lite — открываем компактную модель для генерации видео

Начинаем с рассказа про видео! Встречайте первую модель из линейки Kandinsky-5 Video!

Генерация видео — это всё ещё вызов. Если фотореалистичные картинки уже можно создавать на обычном железе, то качественные видео требуют топовых GPU и огромных моделей. Мы решили это изменить.

Что мы открываем
Kandinsky 5.0 Video Lite — компактная модель всего в 2B параметров, которая генерирует качественные видео по тексту. И да, она работает не только на мощном железе!

В открытом доступе четыре версии для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD):
• SFT — максимальное качество (основная версия)
• CFG-distilled — в 2 раза быстрее
• Diffusion-distilled — в 6 раз быстрее с минимальной потерей качества
• Pretrain — для исследователей и дообучения

🔧 Как мы этого добились (подробнее на хабр)
• Обучили на 520 млн изображений и 125 млн видео-сцен
• Сфокусировались на качестве: команда художников и дизайнеров отобрала лучшие данные для финальной настройки
• Разработали метод NABLA для стабильной 10-секундной генерации
• Использовали архитектуру DiT с flow matching

📊 Результаты впечатляют
По нашим тестам, SFT-версия превосходит модели в 5-14 раз больше по размеру (Wan 2.1 14B, Wan 2.2 5B) и сравнима по качеству с Wan 2.2 A14B, которая весит в 13 раз больше.

🚀 Начните использовать уже сегодня
• Лицензия поддерживает коммерческое использование
• Доступно через бота: @kandinsky_access_bot
• Все материалы на GitVerse, HuggingFace и GitHub


📚 Полезные ссылки:
Хабр статья
Демо и примеры
Код на GitHub
Модели на HuggingFace
NABLA paper
→ Бот для доступа @kandinsky_access_bot
🔥35👍1815❤‍🔥3👏1
🚀 Обновление Giga-Embeddings: лидер ruMTEB и открытая лицензия

Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.

📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.

🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.

⚙️ Как попробовать за 60 секунд
# pip install sentence-transformers
from sentence_transformers import SentenceTransformer
m = SentenceTransformer(
"ai-sage/Giga-Embeddings-instruct",
model_kwargs={"trust_remote_code": "True"},
config_kwargs={"trust_remote_code": "True"}
)

def get_detailed_instruct(task_denoscription: str, query: str) -> str:
return f'Instruct: {task_denoscription}\nQuery:{query}'

task = 'Дан вопрос, необходимо найти среди документов ответ'

queries = [get_detailed_instruct(task, "Как настроить доступ к базе знаний?")]
documents = [
"Чтобы настроить доступ к базе знаний вам нужно открыть инструкцию по онбордингу саппорта, и в выпадающем списке найти...",
"Чтобы убрать звуки, вибрацию и световое оповещение в iPhone, активируйте беззвучный режим или режим «не беспокоить»."
]
emb_queries = m.encode(queries)
emb_documents = m.encode(documents)
print(emb_queries @ emb_documents.T)


📚 Полезные ссылки:
GitVerse
HF
🔥40❤‍🔥12🏆9👍4👏1
📆GigaChat Audio Day Nizhniy

🚀В начале октября ездили командой речевых технологий в Нижний Новгород с митапом. Поделились нашими разработками, познакомились с интересными ребятами и очень продуктивно провели время в столице закатов.

➡️Записи докладов уже доступны VK | YouTube

🔘Как мы сделали production ASR для новых языков на 10 часах данных (Андрей Кузьменко)
🔘Распознавание речи по спикерам в SaluteSpeech: от моделей и алгоритмов до production-оптимизаций (Никита Ноев и Михаил Кузьмин)
🔘Быстрые команды (Юлия Кокорина и Максим Сурков)
🔘GigaChat Audio: как мы добавили поддержку суммаризации видео длительностью 3 часа в мультимодальной LLM (Григорий Фёдоров)

Смотрите, ставьте лайки, приходите на наши будущие мероприятия: следующее пройдёт в Москве уже в декабре — stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3116❤‍🔥10👍4🏆2
One Day Offer в GigaChat Audio
📅 15 ноября 2025, онлайн
➡️ регистрация

Перед нашей платформой стоят амбициозные вызовы, а также запуски новых продуктов. Поэтому мы усиливаем core команды опытными Deep Learning инженерами и Data Science специалистами. Приглашаем вас на One Day Offer уже в следующую субботу! Там вы сможете познакомиться с командами и получить оффер всего за 2 технические секции + финальное интервью.

Над какими вызовами предстоит работать:
— нативное понимание видео в GigaChat
— масштабирование предобучения Audio Foundation Model
— end-to-end модель для real-time speech-to-speech диалога
— ASR в новых доменах, LLM-based ASR
— агентные системы и LLM-пайплайны для системы речевой аналитики
— on-device multimodal LLM


До встречи на One Day Offer!
➡️ регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍116🌚2👎1
GigaAM-v3: новый уровень качества, пунктуация, нормализация

➡️ GitHub | HuggingFace | GitVerse

В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3.

Что публикуем
🔘GigaAM-v3 — foundation audio encoder (база для дообучения).
🔘GigaAM-v3-CTC — улучшенная CTC модель распознавания, быстрый инференс
🔘GigaAM-v3-RNNT — улучшенная RNNT модель распознавания, лучшее качество
🔘GigaAM-v3-e2e-CTC — распознавание с пунктуацией и нормализацией, быстрый инференс
🔘GigaAM-v3-e2e-RNNT — распознавание с пунктуацией и нормализацией, максимальное качество

Пример e2e-вывода: В твоём каталоге есть первая серия сезона 14 «Где логика»?

Что нового в v3
🔘Масштаб предобучения: 50k → 700k часов аудио на русском языке.
🔘Новые домены в обучении ASR: колл-центр, музыкальные запросы, речь с особенностями, разговорная речь (суммарно 2k часов).
🔘Для всего корпуса обучающих данных восстановлены пунктуация и нормализация при помощи GigaChat Max Audio.
🔘Линейка CTC/RNNT + e2e — выбирайте скорость или максимум качества под свой сценарий.

Метрики
🔘 Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
🔘 Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
🔘 Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет.
🔘 Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice).


Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot.

Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5221👍8😱3
📆Делимся секретами про наш новый синтез речи

У нас случился релиз GigaTTS. Это наша новая модель синтеза, под капотом у нее GigaChat 3b, свой токенизатор речи, адаптер к LLM и всего 30к часов данных.

Метрики космические: новая модель нравится людям в 2-4 раза чаще старой, а по естественности она почти всегда живее. Написали подробный технический обзор на Хабр.

Фичи нового синтеза
🔘Естественная freespeech подача, неотличимая от живого человека
🔘Специальные голоса телефонных операторов – таких голосов нет ни у кого
🔘Клонирование голосов, обогнали 11labs instant vc по похожести
🔘Озвучивание текстов бесконечной длины без потери контекста (multiturn режим синтеза)
🔘Инструктивный синтез, где можно задать словами все нюансы эмоций, в том числе сарказм

Послушать новый синтез можно в голосовом режиме GigaChat Voice Mode
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3412🤩6🏆4👍2
🏆 GigaChat 3 Ultra Preview & Lightning: открытые MoE-модели нового поколения

В этом году мы уже радовали вас новой линейкой GigaChat 2, добавлением Reasoning в наш Web (giga.chat), опенсорсом GigaChat Lite и Giga-Embeddings и первым местом на бенчмарке ruMTEB.

Что нового в этот раз? Впервые в России обучены MoE-модели такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение огромных MoE-модели требует не только колоссальных вычислительных ресурсов, но и решения множества инженерных вызовов: от нестабильности вычислений с плавающей точкой до оптимизации межузловой коммуникации и балансировки нагрузки между экспертами.

Поэтому сегодня мы открываем веса двух флагманских MoE-моделей — GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B) — полностью доступных сообществу с лицензией для коммерческого использования.

GigaChat 3 Ultra Preview
🔘702B параметров (36B активных на токен)
🔘Работает быстрее GigaChat 2 Max
🔘Топ-1 на MERA
🔘Поддерживает контекст в 131 тысячу токенов

⚡️ Модель продолжает обучение — финальная версия будет еще мощнее!
GitVerse | HuggingFace | GitHub

GigaChat 3 Lightning
🔘10B параметров (1.8B активных)
🔘Достигла уровня лидера open-source своего класса — Qwen3-4B со скоростью генерации в 1.5 раз выше, как у Qwen3-1.7B
🔘Идеальна в качестве легковесного помощника для локального использования (офлайн-ассистент, прототипирование)
🔘Поддерживает контекст в 256 тысяч токенов
GitVerse | HuggingFace | GitHub

Обе модели
• Не являются reasoning моделями
• Умеют предсказывать сразу несколько токенов
• Другой вид механизма внимания снижает размер KV cache
• Обучены с нуля — без инициализации чужими весами
• Открытые веса и лицензия c возможностью коммерческого использования
• Полностью совместимы с Hugging Face, vLLM / SGLang и стандартными пайплайнами


✈️Подробнее можно прочитать в статье на Habr.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👏19👍11🙏1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Хотите больше информации про наши последние релизы?

10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).
От архитектур и метрик до подходов, решений и планов на будущее.

Будут доклады от инженеров, разборы под капотом, постерная сессия с командами и возможность задать любые технические вопросы тем, кто эти модели создаёт.

Мы делаем формат максимально полезным для тех, кто работает с ML, данными, исследовательскими пайплайнами или инфраструктурой.

Присоединяйтесь офлайн или онлайн, участие бесплатное.
➡️Вот ссылка на регистрацию.

Будем рады видеть всех 10 декабря.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29109👍4🤩3
Салют, Гига!

Мы выкатили программу на 10 декабря — она уже лежит на сайте.

У нас два зала.
В большом — основные релизы, архитектуры, истории изнутри и постерная сессия с командами.

В малом — почти непрерывный техно-контент на весь день. Получилось очень плотно и качественно.

Участие бесплатное, но по регистрации.
Можно прийти офлайн в Москве или подключиться онлайн.

Увидимся в ГигаГороде!
🔥28👍115💅3🤝1
GigaAM-v3 на Хабре

➡️ Хабр

Спешим поделиться постом о создании GigaAM-v3!

В статье много технических деталей для специалистов:
🔘 Распределение данных по доменам
🔘 Эксперименты с масштабирование модели по параметрам
🔘 Сравнение токенизаторов
🔘 Анализ ошибок end-to-end моделей
🔘 LLM-as-a-judge для распознавания речи

По пути к релизу GigaAM-v3 ворвалась в top trending ASR-моделей на HuggingFace, обогнав свежий релиз OmniLingual ASR 🚀


👉 Приходите на «Салют, Гига!» — там вы сможете вживую пообщаться с разработчиками GigaAM, задать вопросы по статье, узнать детали обучения мультиязычного GigaAM Max и обсудить, как мы модифицировали HuBERT-CTC для использования в GigaChat Audio.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3712👍8