NEW BOT Телеграм, страница

🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

@dendi_math_ai

🔥38👍10❤9👏3🕊1

13.6K viewsДенис Димитров, 10:17

Dendi Math&AI

⚡️У нашей конференции AI Journey в этом году появился специальный трек для всех, кто хочет послушать толковые технические доклады, узнать о разных реализуемых AI-кейсах и просто провести время с пользой, пообщавшись с интересными людьми. Знакомьтесь — AIJ Deep Dive!

Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!

Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября

При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)

Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)

В общем, регистрируйтесь, приходите и участвуйте! Увидимся!

@dendi_math_ai

🔥10👏7👍6❤3

2.63K viewsДенис Димитров, edited 13:50

🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!

В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!

Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat

🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)

🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании

В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения

🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse

🔘

Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤32🔥25👍12

6.23K viewsДенис Димитров, 12:14

Dendi Math&AI

⚡Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0

❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно

K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19❤8👍6

7.45K viewsДенис Димитров, 12:41

Dendi Math&AI

Dendi Math&AI pinned a photo

12:52

Dendi Math&AI

10 декабря будем с ребятами рассказывать о том, что сделали за этот год по всем направлениям в рамках разработки моделей Kandinsky. Будет много всего интересного, регистрируйтесь и приходите

@dendi_math_ai

GigaDev — разработка GigaChat

🤖 Хотите больше информации про наши последние релизы?

10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…

❤11🔥6🤝5🫡4

7.16K viewsДенис Димитров, 16:37

Dendi Math&AI

Всем привет!

В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥

Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!

👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт

@dendi_math_ai

Хабр

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite , лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы —...

🔥20❤5😁3🎉3👍2❤‍🔥1

12.2K viewsДенис Димитров, edited 13:00

Dendi Math&AI

Кстати говоря, за последнюю неделю наш техрепорт сначала взял топ-1 за день, потом за неделю, а сейчас уже и за месяц (ноябрь) в рейтинге Daily Papers на HF 🤗, причём с хорошим отрывом. Осталось продержаться 3 дня :)

🔥35🫡13👏7👍4😁2

7.37K viewsДенис Димитров, edited 13:22

Dendi Math&AI

⚡Салют, Гига! — уже сегодня

Обещал вернуться с программой — вот она.

Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)

Поговорим:
🔘об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘о добавлении синхронного аудио к видео при генерации;
🔘о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях

Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода

В общем, будет очень насыщенно, интересно и полезно!

Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)

Увидимся! 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

sb-meetup.jugru.org

Салют, Гига!

Конференция Сбера

🔥8❤5👍5😁3👏1🕊1

9.87K viewsДенис Димитров, edited 07:37

Dendi Math&AI

🥳 Мы докатили в text-to-video арену две наши последние модели генерации видео Kandinsky 5.0 Video Lite и Pro

⚡️Результаты следующие:
🔘Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘Lite версия лучше первой версии Sora (не супердостижение, но у Lite всего 2B параметров)
🔘Лучше нас (Pro) только Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6) — объективно самые сильные модели генерации видео в мире на текущий момент; в паритете с нами Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘В целом стоит отметить, что для российских генеративных моделей выход на международную арену — довольно уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд можно вот тут: lmarena
🔘Твиттер организаторов арены: X lmarena.ai
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт,
🔘Потестить Kandinsky 5.0: github и hf

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥62❤18👍14🤔2😁1👌1

12.1K viewsДенис Димитров, 09:57

About

Blog

Apps

Platform