GigaDev — разработка GigaChat – Telegram
GigaDev — разработка GigaChat
7.15K subscribers
29 photos
1 video
48 links
Истории и статьи про разработку GigaChat от команды разработчиков. Мы рассказываем про все, что связано с языком, речью и искусственным интеллектом
Download Telegram
GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Наша статья принята на InterSpeech 2025 — крупнейшую в мире конференцию по обработке речи. Уже в августе представим ее в Роттердаме 🔥

В статье мы предлагаем подход к self-supervised предобучению для моделей распознавания речи:
• HuBERT-CTC — семантические целевые переменные из CTC-энкодера вместо низкоуровневых (wav2vec2.0, BEST-RQ, HuBERT stage-1)
• Достигаем лучшего WER среди open-source моделей на русском языке (до −50% к Whisper-large-v3).

📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


📌 Ранее мы уже рассказывали о GigaAM, но в этой статье собраны дополнительные ценные результаты:
• Probing: HuBERT-CTC формирует более полезные представления
• Ablation study: обгоняем wav2vec2.0, HuBERT, BEST-RQ
• Исследуем scaling: как влияет размер модели (30M–500M), объём unlabeled и labeled данных
• Pretrain с динамическими масками self-attention: позволяет дообучать модель как в streaming, так и full-context режиме без повторного дорогостоящего предобучения


Помимо сервисов распознавания речи наш подход успешно применяется в аудиомодальности GigaChat, подробнее — в статье на Хабр

Ждем вас в комментариях для обсуждения self-supervised learning в аудио!
Please open Telegram to view this post
VIEW IN TELEGRAM
30🔥18🎉13👍2👏1
GigaConf — всё о GenAI: от продуктов и процессов до моделей и инструментов

📆 Уже сегодня, 25 июня
🕥 Открытие — 10:30 (МСК)
🌐 онлайн трансляция: gigaconf.ru


Приглашаем на GigaConf — нашу ежегодную конференцию, где мы обсуждаем весь цикл работы с GenAI: от бизнес-задач и стратегий внедрения до архитектур, пайплайнов и инженерных решений!

Вас ждут:
🔹 4 тематических трека
🔹 50+ экспертов
🔹 Реальные кейсы и работающие технологии

Особенно рекомендуем доклады команды GigaPlatform:

🧠 Deep Reasoning: учим LLM думать и действовать на примере GigaChat
Александр Прошунин, Эльдар Дамиров
→ В докладе представим подходы к обучению reasoning в GigaChat: использование внутреннего монолога, архитектура ReAct (Think-Act-Think), интеграция инструментов, конфигурируемая логика рассуждений и обучение с подкреплением (GRPO, DAPO). Особое внимание — сбору данных и адаптации reasoning к различным задачам.

🤖 MCP и Think-Tool: добавляем мышление и инструменты любому AI-агенту
Константин Крестников
→ Разберёмся, как AI‑агент может делать промежуточные размышления, пошагово использовать внешние инструменты, анализировать результаты — и при этом оставаться гибким. MCP-серверы, клиентская часть, интеграция с фреймворками, метрики — всё с примерами и результатами тестов.

Также многие из наших разработок можно будет попробовать вживую. Для этого мы подготовили демо-зону со стендами:
🤖 Универсальный агент
🧑‍💻 Agentic Coding
🗣 GigaChat Voice Mode

Там вы сможете узнать технические детали и протестировать наши экспериментальные продукты своими руками!

До встречи на конференции!
🔥289👍5
Уже завтра — у нас One Day Offer. Не упустите возможность присоединиться к команде GigaChat

Ищем опытных DL-инженеров и разработчиков в команду production-внедрения GigaChat, чтобы:

🔘 оптимизировать работу инференса LLM
🔘 распределять утилизацию кластеров железа
🔘 выводить новые архитектуры в промышленную среду

С нас — серьёзные задачи, современное «железо», гибридный график и конкурентная зарплата.

Что вас ждёт:
🔘 знакомство с командой
🔘 техническое интервью в формате live coding: алгоритмы Python/C++, прикладной ML

📍 28 июня, 10:30, онлайн

➡️ Если вы понимаете математику LLM-моделей и разбираетесь в «железе» — регистрируйтесь на One Day Offer

Если вам не подходит время, но все равно интересно — смело заходите тоже.
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥84💅3🤩2
Вакансия: Deep Learning Engineer, ASR 🎧


Ищем инженера-исследователя в ML команду распознавания речи (ASR)

Мы развиваем технологии распознавания речи во всей экосистеме Сбера: от умных устройств и видео-конференций до телефонного канала и B2B-продаж

Задачи
Недавно мы выложили в open-source SSL модель GigaAM (GitHub, arXiv), а ее улучшенная версия GigaAM Max уже доступна в @smartspeech_sber_bot и умных устройствах.
Следующая амбициозная цель — донести то же качество до всех поверхностей: от высоконагруженных кол-центров до компактных CPU-моделей.
Поэтому основными задачами будут исследование методов онлайн-дистилляции, обучение потоковых моделей, ансамблирование моделей в продакшене, эксперименты с новыми архитектурами и многое другое!

Требования
- python: модульный код, ООП, concurrency, pep, тесты
- хорошее знание алгоритмов и структур данных
- понимание методов оценки качества ML-систем
- глубокие теоретические знания в DL + опыт отладки/обучения (крайне желателен multi-gpu)
- знание современных подходов в NLP/Speech
- pytorch + способность разобраться во фреймворках (lightning, NeMo, fairseq, huggingface)
- docker: сборка образов для обучения/тестирования моделей
- linux, git

Будет плюсом
- знание C++
- опыт оптимизации нейросетей для инференса
- опыт работы с crowdsource-разметкой
- базовое знание цифровой обработки сигналов

Условия
- конкурентная зарплата
- еженедельные встречи с разборами статей
- возможность преподавать на курсах по речевым технологиям (МФТИ, МГУ и другие площадки)
- возможность менторить стажеров в исследовательских проектах
- сильный отдел специалистов (от низкоуровневых алгоритмов улучшения качества звука до оптимизации инференса на CUDA). Выпускники ШАД, МФТИ, ВШЭ, Сколтех, МГУ, ex-Yandex
- молодая дружная команда: собираемся в барах, на завтраках и других активностях
- гибкий график работы, удаленка по всей России
- ДМС, зал в офисе, участие и выступления на конференциях

Вопросы и резюме можно присылать на почту kvprolomova@sber.ru
🔥2818👍9🤩5💯3
🔥 GigaChat на ACL топовой конференции A*

Друзья, у нас грандиозные новости! Команда GigaChat представляет сразу две научные работы на одной из самых престижных международных конференций в области обработки естественного языка — ACL (уровень A*).

📚 Что мы представляем:

1️⃣ Семейство моделей GigaChat
Первая статья рассказывает о создании целого семейства языковых моделей GigaChat — от компактных до максимальных версий. Мы первыми в России разработали и обучили с нуля модели на архитектуре MoE (Mixture of Experts), которая работает как команда специалистов: для каждой задачи активируются только нужные “эксперты”.

Результат? Модели в 2 раза быстрее и дешевле аналогов при сопоставимом качестве. А ещё мы выложили base & instruct версии lite модели в open source — пользуйтесь!

2️⃣ GigaEmbeddings — новый стандарт векторных представлений
Вторая работа посвящена созданию эффективной модели векторных представлений для русского языка. GigaEmbeddings заняла первое место в бенчмарке ruMTEB на момент публикации, обогнав модели с бóльшим количеством параметров.

Что это значит для бизнеса? Более точный семантический поиск, улучшенные рекомендательные системы и умные RAG-приложения для русскоязычных текстов.

🎯 Почему это важно:

- Мы показываем, что российские разработки могут конкурировать на мировом уровне
- Наши исследования помогают развивать AI-технологии для русского языка
- Открытые модели доступны всему сообществу для создания новых продуктов

Следите за обновлениями — скоро расскажем больше технических подробностей и поделимся результатами конференции.

А пока можете потестировать наши модели:
🔗 GigaChat Base & Instruct
🔗 GigaEmbeddings
🔥4017👍11🗿2🥴1
🤖 Современный ReAct-агент на LangGraph: пошаговый гайд

Привет! Команда GigaChain опубликовала на Хабре подробное руководство по созданию современных ReAct-агентов.

ReAct — это фундаментальный паттерн, который позволяет LLM-агентам действовать автономно в ответ на запрос пользователя. В новой статье разбирается, как реализовать этот паттерн на современном стеке.

Что в статье:
🔹История ReAct: от хрупкого парсинга текста к надёжному вызову инструментов (function calling)
🔹LangChain vs LangGraph: разбор различий этих фреймворков. Почему для агентов лучше использовать LangGraph?
🔹Пошаговая сборка: создание простого агента с нуля, описание его работы
🔹Добавление памяти: показано, как с помощью чекпоинтов наделить агента памятью, чтобы он вел связный диалог

Это подробный гайд для всех, кто хочет создавать автономных AI-агентов. Никакой магии — только воспроизводимый код и понятная теория.

➡️ Читайте статью на Хабре
👍2212🔥6👎1
12 сентября пять бигтехов — Сбер, Яндекс, X5, Т-Банк и Lamoda — откроют офисы и покажут, как рождаются технологии.

Big Tech Night — масштабное мероприятие, которое можно назвать технологической версией «ночи музеев».

🤖 В офисе Сбера пройдут IT Кэмп с лидами ключевых команд, мастермайнды, алгоритмическая вечеринка и вечернее шоу «Что было в Сбере?»

В треке «Мультиагентные системы в продукте и бизнес-процессах» выступят спикеры:

🎙️ Константин Крестников — управляющий директор, техлид проекта GigaChain, Сбер
- «Универсальный агент = REPL + ReAct»

🎙️ Андрей Кузнецов — директор лаборатории FusionBrain, AIRI
- «Генеративные агенты в действии: автоматизация процессов через LLM и мультиагентные сценарии»

🎙️ Михаил Малышев — независимый эксперт, автор канала «Технозаметки Малышева»
- «Безопасные агенты»

🎙️ Андрей Носов — ведущий AI-архитектор, Raft
- «Как попасть в рой: архитектура производительных и отказоустойчивых мультиагентных систем»

🎙️ Павел Капля — руководитель продуктовой разработки Алисы, Яндекс
- «GPT-функции в Алисе: backstage»


Если посетить офисы не получится, то можно присоединиться к онлайн-студии.

Найти подробное расписание и зарегистрироваться:

- Программа и треки

- Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍12🔥8👏3👎1
🎧 Быстрые команды — большой релиз для умных колонок Sber

Привет, друзья! Рассказали на Хабре про новую фичу — быстрые команды для наших умных колонок SberBoom для управления самой колонкой, телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее. Теперь вам больше не придётся каждый раз повторять волшебное слово «Салют», чтобы изменить громкость или управлять устройствами умного дома.

🔥 Что умеют наши быстрые команды?

Распознают команды даже без произнесённого споттера («Салют»).
Работают локально на устройствах, увеличивая скорость отклика.
Поддерживают множественные синонимы одной команды («Тише», «Потише», «Еще тише»).
Позволяют многократно повторить одну простую команду без остановок («громче-громче-громче»).

Вот некоторые примеры поддерживаемых команд:

Громкость 36%
Яркость 90% в коридоре
Красный свет в зале
Следующий
Выключи ночник в спальне
Темнее

🥇 Чем мы гордимся?

Нам удалось реализовать всё это, уложившись всего лишь в 6 мегабайт пространства на диске устройства! А ведь наша основная задача заключалась именно в минимизации потребления ресурсов и сохранении высокой точности обработки команд.

👍 Почему это круто?

Теперь использование голосовых ассистентов становится намного приятнее и эффективнее. Вместо постоянного повторения ключевых слов, ваша техника моментально отреагирует на любые запросы и сделает вашу жизнь немного легче.

📌 Хочешь проверить новые возможности?

Просто скажи своему устройству: «Салют, включи все быстрые команды!»

Или зайдите в приложение Салют и активируйте новую функцию там.
🔥17👍105🥱2💊2
InterSpeech 2025 — презентуем GigaAM

Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥

📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения



📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👏16👍128🗿2
Всем привет!
Команда GigaChat растёт, и мы ищем больше специалистов для решения интересных задач! 🚀

30 августа проведём One Day Offer сразу по четырём направлениям: Pretrain, Alignment, Vision, Prod ML Data.

Чем предстоит заниматься:

⚙️ Pretrain — учим гигантские нейросети (сотни миллиардов и больше параметров). Работаем с распределённым обучением на суперкомпьютерах, ускоряем обучение и экспериментируем с архитектурами.
🧠 Alignment — берём эти же модели и делаем их полезными: дообучаем на инструкциях, подключаем RLHF/online RL, улучшаем reasoning способности.
🖼️ Vision / Multimodal — всё, что связано с изображениями и видео: от распознавания документов до мультимодальных ассистентов (текст + картинка + видео + действия).
📊 Prod ML Data — команда, которая готовит данные для GigaChat во всех модальностях: текст, изображения, аудио. Здесь — сбор и фильтрация данных, пайплайны разметки, анализ качества моделей, развитие ASR и звуковых навыков GigaChat.

Что вас ждёт:

🔘 знакомство с командами
🔘 технические секции и живой диалог
🔘 быстрый фидбек по итогам

Как подать заявку?
Pretrain и Alignment → одна заявка на оба трека. Регистрируйтесь на One Day Offer или пишите в лс @olga_arkhypova
Vision / Multimodal → пиши в лс @olga_arkhypova
Prod ML Data → пиши в лс @olga_arkhypova
Если пишете в лс, укажите в какой трек вы хотите подать заявку!

Также можно писать в наше сообщество личным сообщением.

P.S. Даже если сомневаетесь — приходите, расскажем про процессы и стек 🙂
🔥19🗿15👍10🤝5👎4
📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech

Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.

В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.

В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.

Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.

Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.

Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition
13🔥8🏆5👍4❤‍🔥2
📝 Инсайты с InterSpeech: Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding

В статье авторы предлагают метод для ускорения синтеза речи на основе популярной модели CosyVoice 2. Она состоит из токенизатора текста и речи, авторегрессивной модели Qwen2.5 0.5B и Flow Matching декодера. Во время инференса ~70% времени уходит на авторегрессивную генерацию токенов, поэтому авторы оптимизируют этот этап. Для ускорения применяют Speculative Decoding

Чем интересна эта работа: она подчеркивает неоднозначность токенов, которые порождают speech tokenizer'ы. Авторы делают предположение, что в отличие от NLP разные последовательности токенов речи могут приводить к одинаковому качеству звучания речи после декодинга. Следовательно, можно смягчить критерий отбора токенов и дополнительно ускорить генерацию

Что делают на практике?
В классическом Speculative Decoding есть медленная и качественная Target Model q(.|.) и быстрая Draft Model p(.|.). С помощью Draft Model авторегрессивно генерируют токены. С помощью Target Model вычисляют вероятностные распределения для всех сгенерированных префиксов за один проход. Далее выполняют Rejection Sampling, чтобы итоговая последовательность соответствовала распределению Target Model:
r ~ uniform(0, 1)

accept x if r < min(1, q(x) / p(x))

else x ~ normalize(max(0, q(x) - p(x)))


Вся схема работает, поскольку:
1) авторегрессивная генерация memory-bound и сгенерировать один токен стоит примерно столько же, что и проверить префикс из нескольких токенов
2) многие токены довольно просто сгенерировать, емкость Target Model для них избыточна
3) схема с Rejection Sampling помогает оставаться в распределении Target Model

Для генерации токенов аудио авторы вводят tolerance factor β >= 0 и модифицируют критерий следующим образом:
r ~ uniform(0, 1)

accept x if r < min(1, q(x) / p(x)) + β


Это позволяет смягчить критерий принятия токенов от Draft Model и добиться лучшей производительности системы при том же качестве синтеза речи. Варьируя β, можно регулировать компромисс между качеством и скоростью

В качестве Target Model выступает трансформер на 24 слоя, Draft Model инициализируют последними 6 слоями (19–24), и дообучают только нижние 2 слоя + lm head


Каких результатов удалось добиться?
Для оценки качества используют объективные (WER: Word Error Rate, Speaker Similarity, NMOS) и субъективные (Mean Opinion Score) метрики. Дообучение Draft Model проводили на датасете LibriTTS, на нем же оценивают качество.

Для оценки производительности используют LM Real Time Factor — отношение времени, которое потребовалось для генерации токенов аудио, к длительности аудио.

Авторы приходят к тому, что оптимально генерировать 3 токена с помощью Draft Model и использовать β=0.4

У исходной CosyVoice 2 WER составляет 3.67%, у Draft Model — 16.13%. Speculative Decoding с подобранными параметрами позволяет достичь WER ~ 5.7% и ускорить генерацию на 40% (LM-RTF 0.50 → 0.36). Деградацию WER после Speculative Decoding авторы связывают с датасетом LibriTTS, на котором дообучали Draft Model. Он примерно в 300 раз меньше проприетарного датасета, который использовался в CosyVoice 2.

Важно отметить, что увеличение β приводит к росту производительности без ушудшения качества, что подтверждает гипотезу об отсутствии однозначного кодирования с помощью аудио токенов.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы туториалов и обзорных докладов:
- Beyond End-to-End ASR: Integrating Long-Context Acoustic and Linguistic Insights
- Conversational Agent: Towards Building Collaborative Partners
9🔥8👍3❤‍🔥2🤔2
📝 Инсайты с InterSpeech: SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
code | demo

На конференции было представлено около 10 работ по speech-to-speech диалоговым моделям на основе LLM, если не считать обзорные доклады. Одной из самых интересных нам показалась работа Nvidia, которую разберем в этом посте

Модель
Для понимания входного аудиопотока авторы используют стриминговый энкодер аудио (FastConformer-CTC 100M) с контекстом в будущее 80 миллисекунд.

В качестве основной модели выбрали TinyLlama-1.1B-chat.

Для генерации речи используют NanoCodec — токенизатор аудио от Nvidia, который также был представлен отдельным докладом. Его основные особенности:
* использование FSQ и независимых кодбуков — в них нет иерархической структуры. Следовательно, их можно предсказывать параллельно из одного скрытого состояния LLM без задержки
* высокое качество при низком битрейте. Авторы экспериментируют с bitrate=0.6kbps и 12.5 токенами для кодирования одной секунды аудио

Для генерации токенов аудио расширяют словарь LLM + добавляют 4 головы для генерации токенов по каждому из кодбуков.

Как соединяют все вместе:
* на каждом шаге из одного скрытого состояния llm генерируется текстовый токен + 4 аудио токена из каждого кодбука
* LLM обуславливается на сгенерированные токены + входной сигнал от пользователя: эбмеддинг текстового токена складывается с эмбеддингами для генерируемых аудиотокенов и непрерывным эмбеддингом от пользователя. Таким образом, LLM говорит и слышит одновременно
* между генерируемыми текстовыми и аудио токенами нет выравнивания по времени: токены генерируются независимо, в текстовом канале токены кончаются раньше, после этого модель отдает паддинги. Авторы упоминают, что пробовали выравнивать генерируемые токены на уровне слов, но не увидели улучшений

Данные
Авторы используют исключительно синтетические данные:
* внутренний датасет распознавания речи → генерация ответа ассистента по текстовой транскрипции → синтез речи → 20 тысяч часов
* внутренний multi-turn текстовый SFT датасет → синтез речи → 3 тысячи часов
* Llama-3.1-70B-Instruct → 4-turn текстовые диалоги → синтез речи → 3.3 тысячи часов
* MS MARCO + Alpaca → TTS → 400 часов

Для обучения необходимы двухканальные аудиозаписи: реплики пользователя и реплики ассистента выравниваются с помощью семплированной тишины. Между окончанием пользовательской реплики и началом речи ассистента добавлялась задержа 640 миллисекунд.

Также авторы симулировали перебивания со стороны пользователя:
* из single-turn QA-пар составляли multi-turn с помощью конкатенации
* при конкатенации допускали перекрытие между вторым запросом пользователя и первым ответом ассистента
* в таком случае канал ассистента содержал ответ еще 640 миллисекунд, а дальше заполнялся тишиной


Оценка качества
Качество оценивают только in-domain: используют часть сгенерированных данных, которые не участвовали в обучении.

* Качество ответов: GPT score между референсом и распознанной репликой ассистента
* Barge-in Latency — время между началом речи пользователя и прекращением речи ассистента
* 1st Response Latency — время между окончанием запросом пользователя и началом ответа ассистента
* Качество генерирумой речи: UTMOS

Результаты
👍 лучше популярной Moshi: GPT score ответов выше, UTMOS генерируемой речи выше, Barge-in Latency ниже
👍 без огромного претрейна, multi-stage обучения и миллионов часов речи
👍 персонализацией NanoCodec (дообучение на 21k часов целевого спикера) удалось снизить битрейт в 2 раза и улучшить качество
😐 только in-domain оценка качества
😐 деградация качества ответов по сравнению с исходной LLM: на Alpaca QA, UltraChat GPT Score упал с 6-5 до 3-3.5
😐 1st Response Latency: 0.72-0.92 секунды
❤‍🔥99🔥7👍4👀1
AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas

Команда GigaChain продолжает делиться гайдами о построении агентов.

В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.

Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.


В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки

➡️ Читайте статью на Хабре

📁 Код, разбираемый в статье, доступен на GitHub и GitVerse

📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
🔥18👍11🥰5💅2💘2
MiMo-Audio: GPT-3 moment for speech domain

github
| demo | huggingface

На днях LLM команда Xiaomi опубликовала в открытый доступ MiMo-Audio — 7b LLM с нативной поддержкой понимания и генерации речи. Основные особенности модели:
- единые дискретные токены для понимания и генерации
- предобучение на 100+ миллионах часов речи (для сравнения: Kimi-Audio — 13M часов; Whisper-large-v3 — 1M часов)

В этом посте мы кратко опишем подход и полученные результаты

Токенизация аудио
Для кодирования аудио авторы используют Transformer (1.2B) с RVQ токенизацией. В нем одна секунда аудио кодируется 25 токенами в каждом из R=8 кодбуков.
Одна из проблем в токенизации аудио — компромисс между кодированием семантики и акустических особенностей. Для ее решения применяют multi-task обучение в 2 этапа
1) обучение токенизатора на реконструкцию исходной аудиозаписи (акустика) + audio captioning с помощью LLM (семантика), 11M часов
2) с замороженным энкодером и квантизатором (которые подстроились под семантическое пространство LLM) доучивают декодер и вокодер для улучшения качества реконструкции

Добавление модальностей в текстовую LLM
- для каждого из R=8 уровней RVQ инициализируют таблицу эмбеддингов
- аудио данные сильно разрежены, одна секунда кодируется 25 токенами, для выравнивания с токенами текста добавляют PatchEncoder, который сжимает (seq_len=4)x(R=8) токенов в один эмбеддинг
- из финального скрытого состояния LLM генерируется как текстовый токен, так и аудио токены, для последних добавляют PatchDecoder: 16-layer Transformer, 8 lm-head'ов для каждого уровня RVQ, MusicGen-like задержка по времени между уровнями квантизации

Pre-training
Про данные сказано только то, что их 100M+ часов, они разнообразные и фильтрованные

Инициализируют модель весами MiMo и учат в 2 этапа
1) Understanding Training. Добавляют к LLM PatchEncoder и учат все веса модели. 1.2T текстовых токенов + 1.4T аудио. Loss вычисляется только по текстовым токенам. Задачи: speech-text interleaved; speech recognition (ASR); audio captioning; text pre-training
2) Understanding-Generation Joint Training. Добавляют PatchDecoder и учат все веса модели. 2.6T текстовых токенов + 2.4T аудио. Задачи: speech continuation; speech-text interleaved; ASR; text-to-speech (TTS); instruct TTS; text pre-training

Результаты:
- наблюдают GPT-3 moment: на масштабе ~1T токенов MiMo-Audio способна решать задачи, которых не было в обучении, во few-shot режиме (например, speech-to-speech translation; voice conversion)
- минимальная деградация MMLU в сценарии text-to-text и speech-to-speech (72.5 vs 69.1)

Post-training
Используют как фильтрованный open-source, так и внутренние данные. Суммарно 100B токенов в следующих форматах: ASR, TTS, audio understanding, spoken dialogue, instruct TTS, text dialogue

Результаты:
- обходит open-source того же размера и приближается к уровню Gemini 2.5 Flash на бенчмарках понимания аудио (MMAU, MMAU-Pro, MMAR)
- на Speech-to-Speech бенчмарке Big Bench Audio обходит open-source модели на 7+ пунктов, но отстает на 14 пунктов от Gemini 2.5 Flash Live
- на InstructTTSEval (оценка с помощью Gemini) обходит GPT-4o-mini-tts на английском и китайском

Обсуждение
👍 первая open-source модель в audio, обученная на таком масштабе данных
👍 минимальный gap между MMLU в режиме text-to-text (72.5) и speech-to-speech (69.1)
👍 результат на Big Bench Audio уровня первых версий GPT-4o realtime
😐 нет описания пайплайна данных / распределения языков
😐 ни одного ablation study
😐 3.76% Word Error Rate на LibriSpeech-test-clean после post-train'а на 100B токенах ( ~4.5M часов речи). У мультиязычного Whisper-large-v2 — 2.7%
22🔥11👍7🤓2😍1
📆Команда GigaChat Audio едет в Нижний Новгород с митапом про речевые технологии

В программе — живые истории о том, как исследования становятся работающими сервисами:
🔘prod-ready распознавание речи на ограниченном наборе данных
🔘speaker diarization: распознавание по голосам в реальном времени
🔘быстрые команды с произвольной структурой для low-resource сценария колонок
🔘суммаризация трёхчасовых видео в GigaChat

В финале вечера — нетворкинг с ребятами из нашей команды.

📆 3 октября, 18:00
📍 Нижний Новгород, «Гараж»

🖥Регистрация и программа уже на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28😍9🤝6👾4😎2
💫 Выкладываем open-source модели для RAG и генерации контента

Сегодня открываем новые модели для свободного использования! Тестируйте гипотезы, встраивайте в продукты, адаптируйте под свои задачи — без ограничений.

У нас два обновления:

🧭 Эмбеддинги
Новая версия 3B модели, которая смогла с большим отрывом занять топ-1 место на бенчмарке ruMTEB!

🎬 Генеративные модели
Картинки и видео для тех, кто делает контент: можно быстро проверить идею, собрать промо-материалы, добавить визуала.
Первая компактная версия Lite (2B) линейки Kandinsky-5 Video — запустится не только на мощном железе.

Скоро расскажем подробнее!
🔥3813👍8👏3🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Kandinsky 5.0 Video Lite — открываем компактную модель для генерации видео

Начинаем с рассказа про видео! Встречайте первую модель из линейки Kandinsky-5 Video!

Генерация видео — это всё ещё вызов. Если фотореалистичные картинки уже можно создавать на обычном железе, то качественные видео требуют топовых GPU и огромных моделей. Мы решили это изменить.

Что мы открываем
Kandinsky 5.0 Video Lite — компактная модель всего в 2B параметров, которая генерирует качественные видео по тексту. И да, она работает не только на мощном железе!

В открытом доступе четыре версии для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD):
• SFT — максимальное качество (основная версия)
• CFG-distilled — в 2 раза быстрее
• Diffusion-distilled — в 6 раз быстрее с минимальной потерей качества
• Pretrain — для исследователей и дообучения

🔧 Как мы этого добились (подробнее на хабр)
• Обучили на 520 млн изображений и 125 млн видео-сцен
• Сфокусировались на качестве: команда художников и дизайнеров отобрала лучшие данные для финальной настройки
• Разработали метод NABLA для стабильной 10-секундной генерации
• Использовали архитектуру DiT с flow matching

📊 Результаты впечатляют
По нашим тестам, SFT-версия превосходит модели в 5-14 раз больше по размеру (Wan 2.1 14B, Wan 2.2 5B) и сравнима по качеству с Wan 2.2 A14B, которая весит в 13 раз больше.

🚀 Начните использовать уже сегодня
• Лицензия поддерживает коммерческое использование
• Доступно через бота: @kandinsky_access_bot
• Все материалы на GitVerse, HuggingFace и GitHub


📚 Полезные ссылки:
Хабр статья
Демо и примеры
Код на GitHub
Модели на HuggingFace
NABLA paper
→ Бот для доступа @kandinsky_access_bot
🔥35👍1815❤‍🔥3👏1
🚀 Обновление Giga-Embeddings: лидер ruMTEB и открытая лицензия

Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.

📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.

🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.

⚙️ Как попробовать за 60 секунд
# pip install sentence-transformers
from sentence_transformers import SentenceTransformer
m = SentenceTransformer(
"ai-sage/Giga-Embeddings-instruct",
model_kwargs={"trust_remote_code": "True"},
config_kwargs={"trust_remote_code": "True"}
)

def get_detailed_instruct(task_denoscription: str, query: str) -> str:
return f'Instruct: {task_denoscription}\nQuery:{query}'

task = 'Дан вопрос, необходимо найти среди документов ответ'

queries = [get_detailed_instruct(task, "Как настроить доступ к базе знаний?")]
documents = [
"Чтобы настроить доступ к базе знаний вам нужно открыть инструкцию по онбордингу саппорта, и в выпадающем списке найти...",
"Чтобы убрать звуки, вибрацию и световое оповещение в iPhone, активируйте беззвучный режим или режим «не беспокоить»."
]
emb_queries = m.encode(queries)
emb_documents = m.encode(documents)
print(emb_queries @ emb_documents.T)


📚 Полезные ссылки:
GitVerse
HF
🔥40❤‍🔥12🏆9👍4👏1
📆GigaChat Audio Day Nizhniy

🚀В начале октября ездили командой речевых технологий в Нижний Новгород с митапом. Поделились нашими разработками, познакомились с интересными ребятами и очень продуктивно провели время в столице закатов.

➡️Записи докладов уже доступны VK | YouTube

🔘Как мы сделали production ASR для новых языков на 10 часах данных (Андрей Кузьменко)
🔘Распознавание речи по спикерам в SaluteSpeech: от моделей и алгоритмов до production-оптимизаций (Никита Ноев и Михаил Кузьмин)
🔘Быстрые команды (Юлия Кокорина и Максим Сурков)
🔘GigaChat Audio: как мы добавили поддержку суммаризации видео длительностью 3 часа в мультимодальной LLM (Григорий Фёдоров)

Смотрите, ставьте лайки, приходите на наши будущие мероприятия: следующее пройдёт в Москве уже в декабре — stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3116❤‍🔥10👍4🏆2