⚡️У нашей конференции AI Journey в этом году появился специальный трек для всех, кто хочет послушать толковые технические доклады, узнать о разных реализуемых AI-кейсах и просто провести время с пользой, пообщавшись с интересными людьми. Знакомьтесь — AIJ Deep Dive!
Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!
Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября
При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)
Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)
В общем, регистрируйтесь, приходите и участвуйте! Увидимся!
@dendi_math_ai
Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!
Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября
При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)
Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)
В общем, регистрируйтесь, приходите и участвуйте! Увидимся!
@dendi_math_ai
🔥10👏7👍6❤3
🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching
🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse
🔘 Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)
@dendi_math_ai
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🚀 Доступность и информация:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30🔥25👍12
⚡Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0
❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно
K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах
🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр
@dendi_math_ai
❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно
K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах
🚀 Доступность и информация:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤8👍6
10 декабря будем с ребятами рассказывать о том, что сделали за этот год по всем направлениям в рамках разработки моделей Kandinsky. Будет много всего интересного, регистрируйтесь и приходите
@dendi_math_ai
@dendi_math_ai
Telegram
GigaDev — разработка GigaChat
🤖 Хотите больше информации про наши последние релизы?
10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…
10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…
❤11🔥6🤝5🫡4
Всем привет!
В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥
Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!
👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт
@dendi_math_ai
В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥
Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!
👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт
@dendi_math_ai
Хабр
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite , лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы —...
🔥19❤4😁3👍2🎉2
Кстати говоря, за последнюю неделю наш техрепорт сначала взял топ-1 за день, потом за неделю, а сейчас уже и за месяц (ноябрь) в рейтинге Daily Papers на HF 🤗, причём с хорошим отрывом. Осталось продержаться 3 дня :)
🔥34🫡12👏7👍4😁2
⚡Салют, Гига! — уже сегодня
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
🔘 об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘 о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘 о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘 об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘 о добавлении синхронного аудио к видео при генерации;
🔘 о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘 о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘 даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘 и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
sb-meetup.jugru.org
Салют, Гига!
Конференция Сбера
🔥8👍5❤4😁3👏1🕊1
🥳 Мы докатили в text-to-video арену две наши последние модели генерации видео Kandinsky 5.0 Video Lite и Pro
⚡️Результаты следующие:
🔘 Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘 Lite версия лучше первой версии Sora (не супердостижение, но у Lite всего 2B параметров)
🔘 Лучше нас (Pro) только Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6) — объективно самые сильные модели генерации видео в мире на текущий момент; в паритете с нами Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 В целом стоит отметить, что для российских генеративных моделей выход на международную арену — довольно уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд можно вот тут: lmarena
🔘 Твиттер организаторов арены: X lmarena.ai
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт,
🔘 Потестить Kandinsky 5.0: github и hf
@dendi_math_ai
⚡️Результаты следующие:
🚀 Полезные ссылки:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥54❤11👍10🤔2😁1👌1