У нас есть Телеграм Бот: @Layer_photobot, в который можно закинуть фотку и поискать похожие предметы одежды или аксессуары.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
🔥10🤗4😱1
Всё больше и больше набирают обороты open-vocabulary (OV) методы в компьютерном зрении. Это подходы, позволяющие вместо фиксированного списка категорий для классификации, детекции, сегментации, whatever, задавать теги \ текстовые описания искомых классов. Таким образом, модели учатся понимать и сравнивать семантику текста и изображения.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
👏4👍3🔥3
Что скажете насчёт идеи оставлять аудио-комментарии в коде?
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
🤯12💩10👍3😁2
Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🎉6👏4👍2
Forwarded from Техножрица 👩💻👩🏫👩🔧
Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
❤8👏4⚡2
Media is too big
VIEW IN TELEGRAM
МегаМаркет рассказали о своей новой фиче, которая использует наш CV движок, на конференции🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3👏1🎉1
О нас пишут, своеобразно, но в достаточно крупном паблике 😄
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Forwarded from Из коммерса в е-коммерса (Юрий Сапожников)
Мегамаркет раскатил инструмент поиска одежды по фото в приложении, который презентовал пару недель назад на конференции.
Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.
Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.
👍 «Из коммерса в е-коммерса»
Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.
Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡8👍3🔥3
Выступили на первом дне VideoTech2023, пока что снова с MiVOLO.
А завтра вообще вбросим мошнейщий анонс новой технологии🤘
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя⚡️
Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
А завтра вообще вбросим мошнейщий анонс новой технологии
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя
Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7⚡5🔥5❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Надеюсь, у вас уже пятничное настроение? А то тут есть новости под такое🤘
Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.
Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.
Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.
Если интересны технические детали, то вот презентация.
🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.
Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.
Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.
Если интересны технические детали, то вот презентация.
🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
🔥14❤3👏3👍1👎1
Forwarded from Salute AI (Alexander Gavrilov)
Уже завтра начнётся ключевая онлайн-конференция в сфере технологий искусственного интеллекта «AI Journey», где эксперты SberDevices расскажут о том, как мы создаём русский инструктивный бенчмарк для LLM, разрабатываем уникальные генеративные модели и AI-сервисы, какие технологии для этого применяем и зачем это всё вообще нужно.
В программе — доклады, которые можно послушать на «AI Journey» от SberDevices:
И многие другие прекрасные ребята и девушки из SberDevices выступят онлайн: 22 и 23 ноября. Участие бесплатно, регистрация не требуется.
Все подробности — здесь
Подписывайтесь 👉 Salute AI
#конференция_AI_Journey
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Journey
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта.
❤9🔥7
Наш паблик, по задумке, рассчитан на самую разную аудиторию: от просто сопереживающих до опытных специалистов. Чтобы эту дисперсию сгладить, иногда мы будем писать быстрые гайды для погружения в тему.
Сегодня поговорим о том, понимание чего читателю пригодится в наших будущих постах (🤫) - больших мультимодальных моделях (LMM).
Говорить будем в разрезе задачи визуального ассистента: т.е., в простейшем случае речь идёт об изображение + текст на входе -> текст на выходе.
Любой, у кого есть подписка на платную версию ChatGPT, в общем-то хорошо понимает, о чём речь.
А что происходит в опенсорсе?
17 апреля 2023 года, ещё до релиза превью мультимодальной ChatGPT-4V, вышла работа LLaVA (Large Language and Vision Assistant). В среде специалистов она наделала много шума, поскольку всё гениально - просто, и авторы, не сделав ничего недоступного другим, сумели достичь блестящих результатов.
Маленькое отступление: краеугольным камнем всех моделей-ассистентов являются инструктивные данные. В нашем случае они выглядят как картинка + инструкция. Например, можно подать изображение с тем, как человек меняет колесо автомобиля на обочине дороги на вход и попросить сеть описать, какую проблему человек решает, почему она возникла и пр. Такие данные мощно драйвят модель к глубокому пониманию сути вещей.
Так вот, в LLaVA, авторы решили собирать такие инструктивные данные для обучения через ChatGPT, поскольку это мощная модель, способная создавать и сами инструкции, и ответы к ним. А ещё потому что люди такие описания делают достаточно плохо.
Но, поскольку картинки ChatGPT съесть ещё не была способна, они хитрым образом извернулись и подавали подробные текстовые описания изображений, включающие даже баундинг боксы объектов.
Дальше всё достаточно просто: собрав качественные инструктивные данные, авторы взяли LLM Vicuna и ViT-L/14 энкодер из CLIP, и собрали всё это вместе. Таким образом, на вход LLM подаётся текст + эмбеддинги изображения. А чтобы эти визуальные эмбеддинги перевести в текстовое гиперпространство, авторы докинули простой линейный слой. Т.е., тренировка состоит из двух этапов: сначала всё, кроме проекционного слоя замораживается и обучается он, затем размораживается ещё и LLM, чтобы обучить ассистента. Визуальный энкодер остаётся в снегу на всех этапах.
Можете посмотреть демо самостоятельно. Итоговая модель оказалась весьма хороша, особенно с учётом того, как данные собирались, что их было немного и относительной простоты всей системы.
Короче, подход взлетел.
Затем была LLaVA 1.5 с небольшими улучшениями и исправлениями (например, заменили линейный слой на MLP - Multi layer perceptron, ну и много другого поправили), а в конце ноября вышла ShareGPT4V.
Авторы первыми дерзко-резко подорвались и исправили главную проблему LLaVA: они набрали данные из ChatGPT-4V, т.е. с уже нормальной мультимодальностью, а не текстовым описанием изображения. Самой большой и нераскрытой интригой статьи остаётся то, как они обошли ограничение в 100 запросов в день, которое на тот момент действовало для всех :)
Но, как бы то ни было, причесав данные и особо даже ничего больше и не меняя, ребята мощно стрельнули: сеть на данный момент или лучшая из открытых, или одна из лучших, смотря на чём смотреть.
Вот тут можно поиграть с демо (ему изредка плохеет и оно ложится).
Ну и там уже гору всяких вариаций понаделали: LLaVAR (улучшение для OCR задач), LLaVA-Grounding (детекция и сегментация), LLaVA-Interactive (для визуального взаимодействия), LLaVA-Plus (для всего на свете), Video-LLaVA и даже LLaVA-Med.
Сегодня поговорим о том, понимание чего читателю пригодится в наших будущих постах (🤫) - больших мультимодальных моделях (LMM).
Говорить будем в разрезе задачи визуального ассистента: т.е., в простейшем случае речь идёт об изображение + текст на входе -> текст на выходе.
Любой, у кого есть подписка на платную версию ChatGPT, в общем-то хорошо понимает, о чём речь.
А что происходит в опенсорсе?
17 апреля 2023 года, ещё до релиза превью мультимодальной ChatGPT-4V, вышла работа LLaVA (Large Language and Vision Assistant). В среде специалистов она наделала много шума, поскольку всё гениально - просто, и авторы, не сделав ничего недоступного другим, сумели достичь блестящих результатов.
Маленькое отступление: краеугольным камнем всех моделей-ассистентов являются инструктивные данные. В нашем случае они выглядят как картинка + инструкция. Например, можно подать изображение с тем, как человек меняет колесо автомобиля на обочине дороги на вход и попросить сеть описать, какую проблему человек решает, почему она возникла и пр. Такие данные мощно драйвят модель к глубокому пониманию сути вещей.
Так вот, в LLaVA, авторы решили собирать такие инструктивные данные для обучения через ChatGPT, поскольку это мощная модель, способная создавать и сами инструкции, и ответы к ним. А ещё потому что люди такие описания делают достаточно плохо.
Но, поскольку картинки ChatGPT съесть ещё не была способна, они хитрым образом извернулись и подавали подробные текстовые описания изображений, включающие даже баундинг боксы объектов.
Дальше всё достаточно просто: собрав качественные инструктивные данные, авторы взяли LLM Vicuna и ViT-L/14 энкодер из CLIP, и собрали всё это вместе. Таким образом, на вход LLM подаётся текст + эмбеддинги изображения. А чтобы эти визуальные эмбеддинги перевести в текстовое гиперпространство, авторы докинули простой линейный слой. Т.е., тренировка состоит из двух этапов: сначала всё, кроме проекционного слоя замораживается и обучается он, затем размораживается ещё и LLM, чтобы обучить ассистента. Визуальный энкодер остаётся в снегу на всех этапах.
Можете посмотреть демо самостоятельно. Итоговая модель оказалась весьма хороша, особенно с учётом того, как данные собирались, что их было немного и относительной простоты всей системы.
Короче, подход взлетел.
Затем была LLaVA 1.5 с небольшими улучшениями и исправлениями (например, заменили линейный слой на MLP - Multi layer perceptron, ну и много другого поправили), а в конце ноября вышла ShareGPT4V.
Авторы первыми дерзко-резко подорвались и исправили главную проблему LLaVA: они набрали данные из ChatGPT-4V, т.е. с уже нормальной мультимодальностью, а не текстовым описанием изображения. Самой большой и нераскрытой интригой статьи остаётся то, как они обошли ограничение в 100 запросов в день, которое на тот момент действовало для всех :)
Но, как бы то ни было, причесав данные и особо даже ничего больше и не меняя, ребята мощно стрельнули: сеть на данный момент или лучшая из открытых, или одна из лучших, смотря на чём смотреть.
Вот тут можно поиграть с демо (ему изредка плохеет и оно ложится).
Ну и там уже гору всяких вариаций понаделали: LLaVAR (улучшение для OCR задач), LLaVA-Grounding (детекция и сегментация), LLaVA-Interactive (для визуального взаимодействия), LLaVA-Plus (для всего на свете), Video-LLaVA и даже LLaVA-Med.
🔥18👍1
Смотрите какая прикольная штука появилась вчера - ReplaceAnything.
Пока нет почти ничего - ни кода, ни статьи, ни пояснений.
Зато есть демо, очень подходящее для поиграться на выходных и оно прямо🔥
Суть проста, сначала нужно загрузить пикчу во вкладке Image Create.
Потом, можно выделить то, что хочется защитить от изменений (foreground) и что можно изменять (background).
Снизу в поле нужно ввести какой-нибудь промт, например, для второй фотки я ввёл что-то вроде такого:
Подождём технических деталей, хотя уже видны особенности, характерные для похожих подходов, например Instruct Pix2Pix. В частности - сложности с пониманием текста (на 3 фото в запросе была бутылка водки, а не пивас).
Пока нет почти ничего - ни кода, ни статьи, ни пояснений.
Зато есть демо, очень подходящее для поиграться на выходных и оно прямо
Суть проста, сначала нужно загрузить пикчу во вкладке Image Create.
Потом, можно выделить то, что хочется защитить от изменений (foreground) и что можно изменять (background).
Снизу в поле нужно ввести какой-нибудь промт, например, для второй фотки я ввёл что-то вроде такого:
A man wearing a coat, holding a cup of coffee in his hand, stands in a square near the Eiffel Tower
Подождём технических деталей, хотя уже видны особенности, характерные для похожих подходов, например Instruct Pix2Pix. В частности - сложности с пониманием текста (на 3 фото в запросе была бутылка водки, а не пивас).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥9