AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Команда GigaChain продолжает делиться гайдами о построении агентов.
В этот раз техлид Константин Крестников показывает процесс построения агентной системы на примере заполнения Lean Canvas — шаблона проработки бизнес-идей для стартапов.
Заполнение Lean Canvas — творческая, но рутинная задача, на которую уходит много времени и усилий команды. А что, если построить агента, который умеет заполнять шаблон по описанию идеи, анализировать конкурентов, учитывать обратную связь и давать хороший черновик — с которым уже можно работать, уточняя детали под специфику проекта.
В статье ты узнаешь:
— как собрать такого агента на GigaChat и LangGraph
— как организовать проверку уникальности через веб-поиск
— как встроить обратную связь от человека (human-in-the-loop), чтобы агент мог переписать отдельные блоки с учётом замечаний
— и как подключить Arize Phoenix для трейсинга, оценки качества и отладки
➡️ Читайте статью на Хабре
📁 Код, разбираемый в статье, доступен на GitHub и GitVerse
📘 Пример с Lean Canvas также представлен в гайде "Разработка и применение мультиагентных систем в корпоративной среде"
Хабр
Гайд: AI-агент на GigaChat и LangGraph (от архитектуры до валидации) на примере Lean Canvas
Запуск стартапа — это не только идея, но и понимание, как она станет бизнесом. Lean Canvas, предложенный Эшем Маурья, помогает на одной странице структурировать ключевые аспекты: проблемы клиентов,...
🔥18👍11🥰5💅2💘2
MiMo-Audio: GPT-3 moment for speech domain
github | demo | huggingface
На днях LLM команда Xiaomi опубликовала в открытый доступ MiMo-Audio — 7b LLM с нативной поддержкой понимания и генерации речи. Основные особенности модели:
- единые дискретные токены для понимания и генерации
- предобучение на 100+ миллионах часов речи (для сравнения: Kimi-Audio — 13M часов; Whisper-large-v3 — 1M часов)
В этом посте мы кратко опишем подход и полученные результаты
Токенизация аудио
Для кодирования аудио авторы используют Transformer (1.2B) с RVQ токенизацией. В нем одна секунда аудио кодируется 25 токенами в каждом из R=8 кодбуков.
Одна из проблем в токенизации аудио — компромисс между кодированием семантики и акустических особенностей. Для ее решения применяют multi-task обучение в 2 этапа
1) обучение токенизатора на реконструкцию исходной аудиозаписи (акустика) + audio captioning с помощью LLM (семантика), 11M часов
2) с замороженным энкодером и квантизатором (которые подстроились под семантическое пространство LLM) доучивают декодер и вокодер для улучшения качества реконструкции
Добавление модальностей в текстовую LLM
- для каждого из R=8 уровней RVQ инициализируют таблицу эмбеддингов
- аудио данные сильно разрежены, одна секунда кодируется 25 токенами, для выравнивания с токенами текста добавляют
- из финального скрытого состояния LLM генерируется как текстовый токен, так и аудио токены, для последних добавляют
Pre-training
Про данные сказано только то, что их 100M+ часов, они разнообразные и фильтрованные
Инициализируют модель весами MiMo и учат в 2 этапа
1) Understanding Training. Добавляют к LLM
2) Understanding-Generation Joint Training. Добавляют
Результаты:
- наблюдают GPT-3 moment: на масштабе ~1T токенов MiMo-Audio способна решать задачи, которых не было в обучении, во few-shot режиме (например, speech-to-speech translation; voice conversion)
- минимальная деградация MMLU в сценарии text-to-text и speech-to-speech (72.5 vs 69.1)
Post-training
Используют как фильтрованный open-source, так и внутренние данные. Суммарно 100B токенов в следующих форматах: ASR, TTS, audio understanding, spoken dialogue, instruct TTS, text dialogue
Результаты:
- обходит open-source того же размера и приближается к уровню
- на Speech-to-Speech бенчмарке Big Bench Audio обходит open-source модели на 7+ пунктов, но отстает на 14 пунктов от
- на InstructTTSEval (оценка с помощью Gemini) обходит
Обсуждение
👍 первая open-source модель в audio, обученная на таком масштабе данных
👍 минимальный gap между MMLU в режиме text-to-text (72.5) и speech-to-speech (69.1)
👍 результат на Big Bench Audio уровня первых версий GPT-4o realtime
😐 нет описания пайплайна данных / распределения языков
😐 ни одного ablation study
😐
github | demo | huggingface
На днях LLM команда Xiaomi опубликовала в открытый доступ MiMo-Audio — 7b LLM с нативной поддержкой понимания и генерации речи. Основные особенности модели:
- единые дискретные токены для понимания и генерации
- предобучение на 100+ миллионах часов речи (для сравнения: Kimi-Audio — 13M часов; Whisper-large-v3 — 1M часов)
В этом посте мы кратко опишем подход и полученные результаты
Токенизация аудио
Для кодирования аудио авторы используют Transformer (1.2B) с RVQ токенизацией. В нем одна секунда аудио кодируется 25 токенами в каждом из R=8 кодбуков.
Одна из проблем в токенизации аудио — компромисс между кодированием семантики и акустических особенностей. Для ее решения применяют multi-task обучение в 2 этапа
1) обучение токенизатора на реконструкцию исходной аудиозаписи (акустика) + audio captioning с помощью LLM (семантика), 11M часов
2) с замороженным энкодером и квантизатором (которые подстроились под семантическое пространство LLM) доучивают декодер и вокодер для улучшения качества реконструкции
Добавление модальностей в текстовую LLM
- для каждого из R=8 уровней RVQ инициализируют таблицу эмбеддингов
- аудио данные сильно разрежены, одна секунда кодируется 25 токенами, для выравнивания с токенами текста добавляют
PatchEncoder, который сжимает (seq_len=4)x(R=8) токенов в один эмбеддинг- из финального скрытого состояния LLM генерируется как текстовый токен, так и аудио токены, для последних добавляют
PatchDecoder: 16-layer Transformer, 8 lm-head'ов для каждого уровня RVQ, MusicGen-like задержка по времени между уровнями квантизацииPre-training
Про данные сказано только то, что их 100M+ часов, они разнообразные и фильтрованные
Инициализируют модель весами MiMo и учат в 2 этапа
1) Understanding Training. Добавляют к LLM
PatchEncoder и учат все веса модели. 1.2T текстовых токенов + 1.4T аудио. Loss вычисляется только по текстовым токенам. Задачи: speech-text interleaved; speech recognition (ASR); audio captioning; text pre-training2) Understanding-Generation Joint Training. Добавляют
PatchDecoder и учат все веса модели. 2.6T текстовых токенов + 2.4T аудио. Задачи: speech continuation; speech-text interleaved; ASR; text-to-speech (TTS); instruct TTS; text pre-trainingРезультаты:
- наблюдают GPT-3 moment: на масштабе ~1T токенов MiMo-Audio способна решать задачи, которых не было в обучении, во few-shot режиме (например, speech-to-speech translation; voice conversion)
- минимальная деградация MMLU в сценарии text-to-text и speech-to-speech (72.5 vs 69.1)
Post-training
Используют как фильтрованный open-source, так и внутренние данные. Суммарно 100B токенов в следующих форматах: ASR, TTS, audio understanding, spoken dialogue, instruct TTS, text dialogue
Результаты:
- обходит open-source того же размера и приближается к уровню
Gemini 2.5 Flash на бенчмарках понимания аудио (MMAU, MMAU-Pro, MMAR)- на Speech-to-Speech бенчмарке Big Bench Audio обходит open-source модели на 7+ пунктов, но отстает на 14 пунктов от
Gemini 2.5 Flash Live- на InstructTTSEval (оценка с помощью Gemini) обходит
GPT-4o-mini-tts на английском и китайскомОбсуждение
👍 первая open-source модель в audio, обученная на таком масштабе данных
👍 минимальный gap между MMLU в режиме text-to-text (72.5) и speech-to-speech (69.1)
👍 результат на Big Bench Audio уровня первых версий GPT-4o realtime
😐 нет описания пайплайна данных / распределения языков
😐 ни одного ablation study
😐
3.76% Word Error Rate на LibriSpeech-test-clean после post-train'а на 100B токенах ( ~4.5M часов речи). У мультиязычного Whisper-large-v2 — 2.7%❤22🔥11👍7🤓2😍1
В программе — живые истории о том, как исследования становятся работающими сервисами:
В финале вечера — нетворкинг с ребятами из нашей команды.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28😍9🤝6👾4😎2
💫 Выкладываем open-source модели для RAG и генерации контента
Сегодня открываем новые модели для свободного использования! Тестируйте гипотезы, встраивайте в продукты, адаптируйте под свои задачи — без ограничений.
У нас два обновления:
🧭 Эмбеддинги
Новая версия 3B модели, которая смогла с большим отрывом занять топ-1 место на бенчмарке ruMTEB!
🎬 Генеративные модели
Картинки и видео для тех, кто делает контент: можно быстро проверить идею, собрать промо-материалы, добавить визуала.
Первая компактная версия Lite (2B) линейки Kandinsky-5 Video — запустится не только на мощном железе.
Скоро расскажем подробнее!
Сегодня открываем новые модели для свободного использования! Тестируйте гипотезы, встраивайте в продукты, адаптируйте под свои задачи — без ограничений.
У нас два обновления:
🧭 Эмбеддинги
Новая версия 3B модели, которая смогла с большим отрывом занять топ-1 место на бенчмарке ruMTEB!
🎬 Генеративные модели
Картинки и видео для тех, кто делает контент: можно быстро проверить идею, собрать промо-материалы, добавить визуала.
Первая компактная версия Lite (2B) линейки Kandinsky-5 Video — запустится не только на мощном железе.
Скоро расскажем подробнее!
🔥38❤13👍8👏3🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Kandinsky 5.0 Video Lite — открываем компактную модель для генерации видео
Начинаем с рассказа про видео! Встречайте первую модель из линейки Kandinsky-5 Video!
Генерация видео — это всё ещё вызов. Если фотореалистичные картинки уже можно создавать на обычном железе, то качественные видео требуют топовых GPU и огромных моделей. Мы решили это изменить.
✨ Что мы открываем
Kandinsky 5.0 Video Lite — компактная модель всего в 2B параметров, которая генерирует качественные видео по тексту. И да, она работает не только на мощном железе!
В открытом доступе четыре версии для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD):
• SFT — максимальное качество (основная версия)
• CFG-distilled — в 2 раза быстрее
• Diffusion-distilled — в 6 раз быстрее с минимальной потерей качества
• Pretrain — для исследователей и дообучения
🔧 Как мы этого добились (подробнее на хабр)
• Обучили на 520 млн изображений и 125 млн видео-сцен
• Сфокусировались на качестве: команда художников и дизайнеров отобрала лучшие данные для финальной настройки
• Разработали метод NABLA для стабильной 10-секундной генерации
• Использовали архитектуру DiT с flow matching
📊 Результаты впечатляют
По нашим тестам, SFT-версия превосходит модели в 5-14 раз больше по размеру (Wan 2.1 14B, Wan 2.2 5B) и сравнима по качеству с Wan 2.2 A14B, которая весит в 13 раз больше.
🚀 Начните использовать уже сегодня
• Лицензия поддерживает коммерческое использование
• Доступно через бота: @kandinsky_access_bot
• Все материалы на GitVerse, HuggingFace и GitHub
📚 Полезные ссылки:
→ Хабр статья
→ Демо и примеры
→ Код на GitHub
→ Модели на HuggingFace
→ NABLA paper
→ Бот для доступа @kandinsky_access_bot
Начинаем с рассказа про видео! Встречайте первую модель из линейки Kandinsky-5 Video!
Генерация видео — это всё ещё вызов. Если фотореалистичные картинки уже можно создавать на обычном железе, то качественные видео требуют топовых GPU и огромных моделей. Мы решили это изменить.
✨ Что мы открываем
Kandinsky 5.0 Video Lite — компактная модель всего в 2B параметров, которая генерирует качественные видео по тексту. И да, она работает не только на мощном железе!
В открытом доступе четыре версии для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD):
• SFT — максимальное качество (основная версия)
• CFG-distilled — в 2 раза быстрее
• Diffusion-distilled — в 6 раз быстрее с минимальной потерей качества
• Pretrain — для исследователей и дообучения
🔧 Как мы этого добились (подробнее на хабр)
• Обучили на 520 млн изображений и 125 млн видео-сцен
• Сфокусировались на качестве: команда художников и дизайнеров отобрала лучшие данные для финальной настройки
• Разработали метод NABLA для стабильной 10-секундной генерации
• Использовали архитектуру DiT с flow matching
📊 Результаты впечатляют
По нашим тестам, SFT-версия превосходит модели в 5-14 раз больше по размеру (Wan 2.1 14B, Wan 2.2 5B) и сравнима по качеству с Wan 2.2 A14B, которая весит в 13 раз больше.
🚀 Начните использовать уже сегодня
• Лицензия поддерживает коммерческое использование
• Доступно через бота: @kandinsky_access_bot
• Все материалы на GitVerse, HuggingFace и GitHub
📚 Полезные ссылки:
→ Хабр статья
→ Демо и примеры
→ Код на GitHub
→ Модели на HuggingFace
→ NABLA paper
→ Бот для доступа @kandinsky_access_bot
🔥35👍18❤15❤🔥3👏1
🚀 Обновление Giga-Embeddings: лидер ruMTEB и открытая лицензия
Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.
📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.
🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.
⚙️ Как попробовать за 60 секунд
📚 Полезные ссылки:
• GitVerse
• HF
Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.
📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.
🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.
⚙️ Как попробовать за 60 секунд
# pip install sentence-transformers
from sentence_transformers import SentenceTransformer
m = SentenceTransformer(
"ai-sage/Giga-Embeddings-instruct",
model_kwargs={"trust_remote_code": "True"},
config_kwargs={"trust_remote_code": "True"}
)
def get_detailed_instruct(task_denoscription: str, query: str) -> str:
return f'Instruct: {task_denoscription}\nQuery:{query}'
task = 'Дан вопрос, необходимо найти среди документов ответ'
queries = [get_detailed_instruct(task, "Как настроить доступ к базе знаний?")]
documents = [
"Чтобы настроить доступ к базе знаний вам нужно открыть инструкцию по онбордингу саппорта, и в выпадающем списке найти...",
"Чтобы убрать звуки, вибрацию и световое оповещение в iPhone, активируйте беззвучный режим или режим «не беспокоить»."
]
emb_queries = m.encode(queries)
emb_documents = m.encode(documents)
print(emb_queries @ emb_documents.T)
📚 Полезные ссылки:
• GitVerse
• HF
🔥40❤🔥12🏆9👍4👏1
Смотрите, ставьте лайки, приходите на наши будущие мероприятия: следующее пройдёт в Москве уже в декабре — stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31❤16❤🔥10👍4🏆2
One Day Offer в GigaChat Audio
📅 15 ноября 2025, онлайн
➡️ регистрация
Перед нашей платформой стоят амбициозные вызовы, а также запуски новых продуктов. Поэтому мы усиливаем core команды опытными Deep Learning инженерами и Data Science специалистами. Приглашаем вас на One Day Offer уже в следующую субботу! Там вы сможете познакомиться с командами и получить оффер всего за 2 технические секции + финальное интервью.
Над какими вызовами предстоит работать:
— нативное понимание видео в GigaChat
— масштабирование предобучения Audio Foundation Model
— end-to-end модель для real-time speech-to-speech диалога
— ASR в новых доменах, LLM-based ASR
— агентные системы и LLM-пайплайны для системы речевой аналитики
— on-device multimodal LLM
До встречи на One Day Offer!
➡️ регистрация
📅 15 ноября 2025, онлайн
Перед нашей платформой стоят амбициозные вызовы, а также запуски новых продуктов. Поэтому мы усиливаем core команды опытными Deep Learning инженерами и Data Science специалистами. Приглашаем вас на One Day Offer уже в следующую субботу! Там вы сможете познакомиться с командами и получить оффер всего за 2 технические секции + финальное интервью.
Над какими вызовами предстоит работать:
— нативное понимание видео в GigaChat
— масштабирование предобучения Audio Foundation Model
— end-to-end модель для real-time speech-to-speech диалога
— ASR в новых доменах, LLM-based ASR
— агентные системы и LLM-пайплайны для системы речевой аналитики
— on-device multimodal LLM
До встречи на One Day Offer!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍11❤6🌚2👎1
GigaAM-v3: новый уровень качества, пунктуация, нормализация
➡️ GitHub | HuggingFace | GitVerse
В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3.
Что публикуем
🔘 GigaAM-v3 — foundation audio encoder (база для дообучения).
🔘 GigaAM-v3-CTC — улучшенная CTC модель распознавания, быстрый инференс
🔘 GigaAM-v3-RNNT — улучшенная RNNT модель распознавания, лучшее качество
🔘 GigaAM-v3-e2e-CTC — распознавание с пунктуацией и нормализацией, быстрый инференс
🔘 GigaAM-v3-e2e-RNNT — распознавание с пунктуацией и нормализацией, максимальное качество
Пример e2e-вывода:
Что нового в v3
🔘 Масштаб предобучения: 50k → 700k часов аудио на русском языке.
🔘 Новые домены в обучении ASR: колл-центр, музыкальные запросы, речь с особенностями, разговорная речь (суммарно 2k часов).
🔘 Для всего корпуса обучающих данных восстановлены пунктуация и нормализация при помощи GigaChat Max Audio.
🔘 Линейка CTC/RNNT + e2e — выбирайте скорость или максимум качества под свой сценарий.
Метрики
🔘 Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
🔘 Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
🔘 Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет.
🔘 Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice).
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot.
Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3.
Что публикуем
Пример e2e-вывода:
В твоём каталоге есть первая серия сезона 14 «Где логика»?Что нового в v3
Метрики
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot.
Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52❤21👍8😱3
У нас случился релиз GigaTTS. Это наша новая модель синтеза, под капотом у нее GigaChat 3b, свой токенизатор речи, адаптер к LLM и всего 30к часов данных.
Метрики космические: новая модель нравится людям в 2-4 раза чаще старой, а по естественности она почти всегда живее. Написали подробный технический обзор на Хабр.
Фичи нового синтеза
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤12🤩6🏆4👍2
В этом году мы уже радовали вас новой линейкой GigaChat 2, добавлением Reasoning в наш Web (giga.chat), опенсорсом GigaChat Lite и Giga-Embeddings и первым местом на бенчмарке ruMTEB.
Что нового в этот раз? Впервые в России обучены MoE-модели такого масштаба полностью с нуля — без зависимости от зарубежных весов. Обучение огромных MoE-модели требует не только колоссальных вычислительных ресурсов, но и решения множества инженерных вызовов: от нестабильности вычислений с плавающей точкой до оптимизации межузловой коммуникации и балансировки нагрузки между экспертами.
Поэтому сегодня мы открываем веса двух флагманских MoE-моделей — GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B) — полностью доступных сообществу с лицензией для коммерческого использования.
GigaChat 3 Ultra Preview
GigaChat 3 Lightning
Обе модели
• Не являются reasoning моделями
• Умеют предсказывать сразу несколько токенов
• Другой вид механизма внимания снижает размер KV cache
• Обучены с нуля — без инициализации чужими весами
• Открытые веса и лицензия c возможностью коммерческого использования
• Полностью совместимы с Hugging Face, vLLM / SGLang и стандартными пайплайнами
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👏19👍11🙏1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).
От архитектур и метрик до подходов, решений и планов на будущее.
Будут доклады от инженеров, разборы под капотом, постерная сессия с командами и возможность задать любые технические вопросы тем, кто эти модели создаёт.
Мы делаем формат максимально полезным для тех, кто работает с ML, данными, исследовательскими пайплайнами или инфраструктурой.
Присоединяйтесь офлайн или онлайн, участие бесплатное.
Будем рады видеть всех 10 декабря.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29✍10❤9👍4🤩3
Салют, Гига!
Мы выкатили программу на 10 декабря — она уже лежит на сайте.
У нас два зала.
В большом — основные релизы, архитектуры, истории изнутри и постерная сессия с командами.
В малом — почти непрерывный техно-контент на весь день. Получилось очень плотно и качественно.
Участие бесплатное, но по регистрации.
Можно прийти офлайн в Москве или подключиться онлайн.
Увидимся в ГигаГороде!
Мы выкатили программу на 10 декабря — она уже лежит на сайте.
У нас два зала.
В большом — основные релизы, архитектуры, истории изнутри и постерная сессия с командами.
В малом — почти непрерывный техно-контент на весь день. Получилось очень плотно и качественно.
Участие бесплатное, но по регистрации.
Можно прийти офлайн в Москве или подключиться онлайн.
Увидимся в ГигаГороде!
🔥28👍11❤5💅3🤝1
GigaAM-v3 на Хабре
➡️ Хабр
Спешим поделиться постом о создании GigaAM-v3!
В статье много технических деталей для специалистов:
🔘 Распределение данных по доменам
🔘 Эксперименты с масштабирование модели по параметрам
🔘 Сравнение токенизаторов
🔘 Анализ ошибок end-to-end моделей
🔘 LLM-as-a-judge для распознавания речи
По пути к релизу GigaAM-v3 ворвалась в top trending ASR-моделей на HuggingFace, обогнав свежий релиз OmniLingual ASR 🚀
👉 Приходите на «Салют, Гига!» — там вы сможете вживую пообщаться с разработчиками GigaAM, задать вопросы по статье, узнать детали обучения мультиязычного GigaAM Max и обсудить, как мы модифицировали HuBERT-CTC для использования в GigaChat Audio.
Спешим поделиться постом о создании GigaAM-v3!
В статье много технических деталей для специалистов:
По пути к релизу GigaAM-v3 ворвалась в top trending ASR-моделей на HuggingFace, обогнав свежий релиз OmniLingual ASR 🚀
👉 Приходите на «Салют, Гига!» — там вы сможете вживую пообщаться с разработчиками GigaAM, задать вопросы по статье, узнать детали обучения мультиязычного GigaAM Max и обсудить, как мы модифицировали HuBERT-CTC для использования в GigaChat Audio.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37❤12👍8