👨💻⚡️Декабрь - время подводить итоги года. Буду выкладывать свои выступления на различных мероприятиях🙂
1 июля 2022 года
Начну с моего первого выступления в этом году на конференции MachinesCanSee, которая проводится компанией VisionLabs. Это был отличный нетворкинг + я получил полезную обратную связь.
Выступал с темой «Мультимодальные архитектуры в задаче генерации изображений по описаниям».
Акцент был сделан на данные и их фильтрацию, а также на архитектурные особенности авторегрессионных моделей.
⭐️Посмотреть можно тут (ссылка с тайм-кодом)
P.S. Всем хорошей пятницы и активных выходных🙏
@complete_ai
1 июля 2022 года
Начну с моего первого выступления в этом году на конференции MachinesCanSee, которая проводится компанией VisionLabs. Это был отличный нетворкинг + я получил полезную обратную связь.
Выступал с темой «Мультимодальные архитектуры в задаче генерации изображений по описаниям».
Акцент был сделан на данные и их фильтрацию, а также на архитектурные особенности авторегрессионных моделей.
⭐️Посмотреть можно тут (ссылка с тайм-кодом)
P.S. Всем хорошей пятницы и активных выходных🙏
@complete_ai
👍10🏆4
Forwarded from Нейросеть видит
Нейросеть показала, как бы выглядели «Звёздные войны», если бы их нарисовал легендарный аниматор Хаяо Миядзаки
Нейросеть видит
Нейросеть видит
🔥14👍6
👨💻⚡️14 декабря выступаю с очередной очной лекцией про Creative AI. В этот раз мероприятие будет проходить в ННГУ им. Лобачевского (пр. Гагарина д.23, корпус 1а, конференц-зал библиотеки, 4 этаж). Приходите, если кто-то сейчас в Нижнем Новгороде😉
Вероятно, также должна быть ссылка на онлайн-трансляцию, но это не точно🙃
Начало в 11.00.
Программа мероприятия
@complete_ai
Вероятно, также должна быть ссылка на онлайн-трансляцию, но это не точно🙃
Начало в 11.00.
Программа мероприятия
@complete_ai
👍11🔥3
🔥 Scalable Diffusion Models with Transformers
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
@complete_ai
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
@complete_ai
👍9🔥3🏆1👀1
❓🤔 Рубрика - Угадайте промты
Ответы оставляйте в комментариях (крылатые выражения)
1.
2.
3.
Ответы оставляйте в комментариях (крылатые выражения)
1.
2.
3.
🔥4😁2💩1
Приглашаю на вебинар, посвященный трансформерам для генерации контента
22 декабря в 11:00.
На вебинаре подведем итоги года в сфере ML-deep-tech разработок: вспомним самые яркие события, взлеты и падения, общий прогресс современных трансформерных мультимодальных моделей в контексте истории искусственного интеллекта.
Эксперты расскажут про state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023:
• какие критерии оценки результатов обучения используются сейчас;
• как ученые и разработчики объединяют усилия, чтобы обеспечивать надежность, воспроизводимость и несмещенность полученных результатов.
Финальным аккордом сделаем обзор всего самого интересного, что за год завезли на маркетплейсы AI Services и DataHub, расскажем, как эти решения можно использовать для практических бизнес-задач.
Кому будет полезен вебинар:
Всем, кто неравнодушен к AI и ML — дата-сайентистам, ML-инженерам, IT-директорам, разработчикам и продакт-менеджерам.
➡️ Зарегистрироваться на вебинар можно на сайте
Выступать будем я, Татьяна Шаврина (Sber Devices), Денис Димитров (Sber AI), Вера Шибаева (Cloud) и Иван Тараскин (Cloud).
Приходите! Обсудим год!
❗️UPD: презентация в комментах ⬇️
22 декабря в 11:00.
На вебинаре подведем итоги года в сфере ML-deep-tech разработок: вспомним самые яркие события, взлеты и падения, общий прогресс современных трансформерных мультимодальных моделей в контексте истории искусственного интеллекта.
Эксперты расскажут про state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023:
• какие критерии оценки результатов обучения используются сейчас;
• как ученые и разработчики объединяют усилия, чтобы обеспечивать надежность, воспроизводимость и несмещенность полученных результатов.
Финальным аккордом сделаем обзор всего самого интересного, что за год завезли на маркетплейсы AI Services и DataHub, расскажем, как эти решения можно использовать для практических бизнес-задач.
Кому будет полезен вебинар:
Всем, кто неравнодушен к AI и ML — дата-сайентистам, ML-инженерам, IT-директорам, разработчикам и продакт-менеджерам.
➡️ Зарегистрироваться на вебинар можно на сайте
Выступать будем я, Татьяна Шаврина (Sber Devices), Денис Димитров (Sber AI), Вера Шибаева (Cloud) и Иван Тараскин (Cloud).
Приходите! Обсудим год!
❗️UPD: презентация в комментах ⬇️
👍11🔥6❤2👏2🤮1
Всем привет!
Недавно делали обзор ChatGPT с проверкой фактов о её плюсах и минусах, заодно сравнили с другими похожими приложениями/моделями.
Приглашаю почитать на Хабре - получился, на мой взгляд, хороший обзор. Сделали 2 варианта: краткий и детальный про архитектуру и сравнение с аналогами.
Спасибо за доступ к ChatGPT и помощь в обзоре @alexwortega и @dendimitrov
ссылка
мой коммент в Forbes
@complete_ai
Недавно делали обзор ChatGPT с проверкой фактов о её плюсах и минусах, заодно сравнили с другими похожими приложениями/моделями.
Приглашаю почитать на Хабре - получился, на мой взгляд, хороший обзор. Сделали 2 варианта: краткий и детальный про архитектуру и сравнение с аналогами.
Спасибо за доступ к ChatGPT и помощь в обзоре @alexwortega и @dendimitrov
ссылка
мой коммент в Forbes
@complete_ai
Хабр
Обзор ChatGPT с примерами использования в различных задачах
Одно из знаковых событий 2022 года помимо text-to-image моделей - это, безусловно, модель ChatGPT. Выйдя на суд общества, она смогла найти как большой круг почитателей и восхищающихся её...
🔥16
Всем привет! Еще раз поздравляю с наступившим 2023 годом🎄🎅 🎉
⚡️⚡️⚡️
Начну год с одного из ключевых достижений команды в 2022 году. Сделали крутую модель для быстрого переноса лица с фото на фото или видео - GHOST (Generative High-fidelity One Shot Transfer). За основу была первично взята архитектура FaceShifter, которая в начале наших исследований казалась наиболее удачной.
В итоге мы доработали её для переноса лица с изображения на видео и внесли ряд изменений, ключевые из которых:
💡дополнительный лосс на направление взгляда
💡адаптивная сглаженная маска переноса лица
💡блок устранения эффекта дрожания (jittering) при переносе на видео
По результатам экспериментов выбили SoTA среди известных моделей (FaceSwap, DeepFakes, FaceShifter, SimSwap и HifiFace) на ряде валидационных сетов по таким метрикам как сохранение identity, shape и направления взгляда. По метрике переноса позы наша модель близка к SoTA, и мы постараемся еще улучшить показатели в этом году.
Некоторые примеры переноса лиц с фото на фото можно увидеть в закрепе к посту. Более подробно с материалами исследований можно ознакомиться в опубликованной статье в IEEE Access (пробились со второго раунда ревью🏆 ), а репозиторий модели можно найти тут.
Ну и конечно же, не могли обойти стороной и любимых пользователей. Запустили ТГ-бот для того, чтобы поиграться с моделью (ограничение на длину загружаемого видео - 20 секунд).
⚡️Скорость переноса на FullHD видео высокая - около 12 FPS.
Все ссылки скопом для удобства ⬇️
📘статья
📕Хабр
🖥 GitHub + коллаб
🔥TG_Bot
@complete_ai
⚡️⚡️⚡️
Начну год с одного из ключевых достижений команды в 2022 году. Сделали крутую модель для быстрого переноса лица с фото на фото или видео - GHOST (Generative High-fidelity One Shot Transfer). За основу была первично взята архитектура FaceShifter, которая в начале наших исследований казалась наиболее удачной.
В итоге мы доработали её для переноса лица с изображения на видео и внесли ряд изменений, ключевые из которых:
💡дополнительный лосс на направление взгляда
💡адаптивная сглаженная маска переноса лица
💡блок устранения эффекта дрожания (jittering) при переносе на видео
По результатам экспериментов выбили SoTA среди известных моделей (FaceSwap, DeepFakes, FaceShifter, SimSwap и HifiFace) на ряде валидационных сетов по таким метрикам как сохранение identity, shape и направления взгляда. По метрике переноса позы наша модель близка к SoTA, и мы постараемся еще улучшить показатели в этом году.
Некоторые примеры переноса лиц с фото на фото можно увидеть в закрепе к посту. Более подробно с материалами исследований можно ознакомиться в опубликованной статье в IEEE Access (пробились со второго раунда ревью
Ну и конечно же, не могли обойти стороной и любимых пользователей. Запустили ТГ-бот для того, чтобы поиграться с моделью (ограничение на длину загружаемого видео - 20 секунд).
⚡️Скорость переноса на FullHD видео высокая - около 12 FPS.
Все ссылки скопом для удобства ⬇️
📘статья
📕Хабр
🔥TG_Bot
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ai-forever/ghost: A new one shot face swap approach for image and video domains
A new one shot face swap approach for image and video domains - ai-forever/ghost
🔥18👍4❤3🤨2
VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge
Относительно новая работа VLC-BERT (Visual Language Commonsense) от University of British Columbia для решения задачи VQA. Особенность заключается в том, что вместо типичного подхода с извлечением знаний (knowledge-based) авторы применяют доп reasoning языковую модель commonsense - COMET, которая предобучена на гарфах знаний. COMET на вход принимает вопрос и лэйблы объектов, обнаруженных на изображении моделью YOLOv5.
В результате модель COMET формирует ряд предложений, который содердит дополнительную описательную информацию об изображении. Для каждого из 30 типов «отношений» формируется топ-5 предложений, далее они еще фильтруются и получается финальный список дополнительных описаний, который подаётся на вход вместе с текстом вопроса и image regions в финальную архитектуру VLC-BERT, которая была предобучена на VQA датасетах.
Итого модель содержит 118М параметров и выбивает по accuracy все knowledge-based решения (43.14%).
Подробнее в статье
Пощупать модель можно в репозитории
@complete_ai
Относительно новая работа VLC-BERT (Visual Language Commonsense) от University of British Columbia для решения задачи VQA. Особенность заключается в том, что вместо типичного подхода с извлечением знаний (knowledge-based) авторы применяют доп reasoning языковую модель commonsense - COMET, которая предобучена на гарфах знаний. COMET на вход принимает вопрос и лэйблы объектов, обнаруженных на изображении моделью YOLOv5.
В результате модель COMET формирует ряд предложений, который содердит дополнительную описательную информацию об изображении. Для каждого из 30 типов «отношений» формируется топ-5 предложений, далее они еще фильтруются и получается финальный список дополнительных описаний, который подаётся на вход вместе с текстом вопроса и image regions в финальную архитектуру VLC-BERT, которая была предобучена на VQA датасетах.
Итого модель содержит 118М параметров и выбивает по accuracy все knowledge-based решения (43.14%).
Подробнее в статье
Пощупать модель можно в репозитории
@complete_ai
👍9👏2