Media is too big
VIEW IN TELEGRAM
Мы тут прикрутили к MiVOLO возможность работать с видео и по этому случаю решили немного поразвлекаться.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко😅 ).
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.
В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.
В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤5👍2😁2
У нас есть Телеграм Бот: @Layer_photobot, в который можно закинуть фотку и поискать похожие предметы одежды или аксессуары.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
🔥10🤗4😱1
Всё больше и больше набирают обороты open-vocabulary (OV) методы в компьютерном зрении. Это подходы, позволяющие вместо фиксированного списка категорий для классификации, детекции, сегментации, whatever, задавать теги \ текстовые описания искомых классов. Таким образом, модели учатся понимать и сравнивать семантику текста и изображения.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
👏4👍3🔥3
Что скажете насчёт идеи оставлять аудио-комментарии в коде?
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
🤯12💩10👍3😁2
Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🎉6👏4👍2
Forwarded from Техножрица 👩💻👩🏫👩🔧
Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
❤8👏4⚡2
Media is too big
VIEW IN TELEGRAM
МегаМаркет рассказали о своей новой фиче, которая использует наш CV движок, на конференции🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3👏1🎉1
О нас пишут, своеобразно, но в достаточно крупном паблике 😄
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Forwarded from Из коммерса в е-коммерса (Юрий Сапожников)
Мегамаркет раскатил инструмент поиска одежды по фото в приложении, который презентовал пару недель назад на конференции.
Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.
Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.
👍 «Из коммерса в е-коммерса»
Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.
Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡8👍3🔥3
Выступили на первом дне VideoTech2023, пока что снова с MiVOLO.
А завтра вообще вбросим мошнейщий анонс новой технологии🤘
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя⚡️
Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
А завтра вообще вбросим мошнейщий анонс новой технологии
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя
Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7⚡5🔥5❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Надеюсь, у вас уже пятничное настроение? А то тут есть новости под такое🤘
Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.
Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.
Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.
Если интересны технические детали, то вот презентация.
🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.
Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.
Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.
Если интересны технические детали, то вот презентация.
🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
🔥14❤3👏3👍1👎1
Forwarded from Salute AI (Alexander Gavrilov)
Уже завтра начнётся ключевая онлайн-конференция в сфере технологий искусственного интеллекта «AI Journey», где эксперты SberDevices расскажут о том, как мы создаём русский инструктивный бенчмарк для LLM, разрабатываем уникальные генеративные модели и AI-сервисы, какие технологии для этого применяем и зачем это всё вообще нужно.
В программе — доклады, которые можно послушать на «AI Journey» от SberDevices:
И многие другие прекрасные ребята и девушки из SberDevices выступят онлайн: 22 и 23 ноября. Участие бесплатно, регистрация не требуется.
Все подробности — здесь
Подписывайтесь 👉 Salute AI
#конференция_AI_Journey
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Journey
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта.
❤9🔥7