Dendi Math&AI – Telegram
Dendi Math&AI
6.38K subscribers
32 photos
33 videos
27 links
Канал Дениса Димитрова о математике и искусственном интеллекте. В основном разные интересные и актуальные новости и мысли
Download Telegram
Всем привет!

Сегодня в 11:30 буду выступать на AI R&D Day с докладом про одну из самых горячих (и красивых) тем в области Generative AI последнего времени – генерацию изображений и видео 🔥

Модели синтеза визуального контента развиваются с бешеной скоростью: они становятся умнее, их генерации реалистичнее и «физичнее», но при этом ещё остается много исследовательских вопросов и инженерных сложностей, связанных, например, с процессом обучения такого рода моделей.

В докладе:
👉 обсудим разные аспекты диффузионного процесса, его преимущества и недостатки;
👉 разберёмся с задачей генерации изображений/видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода;
👉 расскажу о последних архитектурах Kandinsky, особенностях их обучения, нюансах сбора и фильтрации данных;
👉 поговорим немного о моделях мира и о их связи с text-to-video моделями;
👉 обсудим применения моделей генерации изображений/видео и их потенциал в настоящем и будущем.

В общем, будет максимально по делу, с живыми примерами и возможностью задать вопросы лично 🙂

📅 24 сентября 11:30
📍 AI R&D Day (оффлайн и онлайн)
👉 Регистрируйтесь по ссылке и увидимся на конференции!

@dendi_math_ai
👍11🔥103👌3
🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

@dendi_math_ai
🔥38👍109👏3🕊1
⚡️У нашей конференции AI Journey в этом году появился специальный трек для всех, кто хочет послушать толковые технические доклады, узнать о разных реализуемых AI-кейсах и просто провести время с пользой, пообщавшись с интересными людьми. Знакомьтесь — AIJ Deep Dive!

Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!

Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября

При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)

Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)

В общем, регистрируйтесь, приходите и участвуйте! Увидимся!

@dendi_math_ai
🔥10👏7👍63
🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!

В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!

Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat

🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)

🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании

В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения

🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse
🔘 Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)

@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
28🔥23👍11
Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0

О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно

K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр

@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥198👍6
Всем привет!

В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥

Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!

👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт

@dendi_math_ai
🔥194😁3👍2🎉2
Кстати говоря, за последнюю неделю наш техрепорт сначала взял топ-1 за день, потом за неделю, а сейчас уже и за месяц (ноябрь) в рейтинге Daily Papers на HF 🤗, причём с хорошим отрывом. Осталось продержаться 3 дня :)
🔥30🫡11👏6👍4