The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера Meta выпустили новый синтетический датасет PUG, полученный при помощи Unreal Engine.
Там 4, достаточно больших, сабсета: животные, синтетические imagenet-классы и два сета с атрибутами и описаниями сцен для visual-language моделей.
Есть и инструкция, как нарендерить свои данные.

Вообще, в CV идея синтетических данных не отпускает исследователей с самого начала бума области и попытки совершались в разных задачах с регулярной частотой. Где-то в 2017, когда я занимался ADAS (системы помощи водителю), я пробовал работать с CARLA Simulator, который позволяет, например, получить на выходе точную сегментационную разметку сцен. Это очень дорогая и сложная разметка, занимающая у человека по 10-30 минут на кадр, и в таком случае синтетические данные могут сильно помочь. Симулятор, кстати, активно развивается и до сих пор. Были и другие попытки, например, семантическую сегментацию программно выдирали из GTA5.

Но в целом, надо сказать, что из-за расхождения распределений, различности визуальных доменов, отсутствии реальных шумов от окружающей среды, матрицы и прочего, эффективность таких данных чаще всего на практике крайне невысока. Если целевой домен работы модели - реальный мир и данные из него, то синтетическими куда как проще навредить, чем получить выгоду.
👍4🤔3💯1
Media is too big
VIEW IN TELEGRAM
Мы тут прикрутили к MiVOLO возможность работать с видео и по этому случаю решили немного поразвлекаться.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко😅).
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.

В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105👍2😁2
У нас есть Телеграм Бот: @Layer_photobot, в который можно закинуть фотку и поискать похожие предметы одежды или аксессуары.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).

P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
🔥10🤗4😱1
😁11
Всё больше и больше набирают обороты open-vocabulary (OV) методы в компьютерном зрении. Это подходы, позволяющие вместо фиксированного списка категорий для классификации, детекции, сегментации, whatever, задавать теги \ текстовые описания искомых классов. Таким образом, модели учатся понимать и сравнивать семантику текста и изображения.

Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.

Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.

Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.

В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
👏4👍3🔥3
Что скажете насчёт идеи оставлять аудио-комментарии в коде?

Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
🤯12💩10👍3😁2
Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.

Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🎉6👏4👍2
Пятничное
😁7🤣2
Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).

Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.

Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.

Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.

#объяснения_статей
8👏42
Media is too big
VIEW IN TELEGRAM
МегаМаркет рассказали о своей новой фиче, которая использует наш CV движок, на конференции🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3👏1🎉1
Вдруг вы ещё не видели, тут говорят всё, доигрались мы.
Тыц Arxiv


На всякий случай, вдруг не все выкупят - ребята просто угорают, это статья-шутка.
В посте так же обыгрывается
этот мем.
🤣4👍1😁1
О нас пишут, своеобразно, но в достаточно крупном паблике 😄
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Forwarded from Из коммерса в е-коммерса (Юрий Сапожников)
Мегамаркет раскатил инструмент поиска одежды по фото в приложении, который презентовал пару недель назад на конференции.

Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.

Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.

👍 «Из коммерса в е-коммерса»
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3🔥3
Выступили на первом дне VideoTech2023, пока что снова с MiVOLO.

А завтра вообще вбросим мошнейщий анонс новой технологии 🤘
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя⚡️

Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
Надеюсь, у вас уже пятничное настроение? А то тут есть новости под такое🤘

Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.

Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.

Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.

Если интересны технические детали, то вот презентация.

🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
🔥143👏3👍1👎1
Оказывается, в самый ответственный момент у нас отвалились комментарии 😅
Возвращаем! А в прошлый пост добавили демо-шортс.
😁4😢1
Forwarded from Salute AI (Alexander Gavrilov)
⚡️ Кто будет выступать от SberDevices на ключевой ИИ-конференции «AI Journey»

Уже завтра начнётся ключевая онлайн-конференция в сфере технологий искусственного интеллекта «AI Journey», где эксперты SberDevices расскажут о том, как мы создаём русский инструктивный бенчмарк для LLM, разрабатываем уникальные генеративные модели и AI-сервисы, какие технологии для этого применяем и зачем это всё вообще нужно.

В программе — доклады, которые можно послушать на «AI Journey» от SberDevices:

👋 Алёна Феногенова и Денис Димитров (Sber AI) выступят с докладом о MERA: инструктивном бенчмарке для русского языка для оценки фундаментальных LLM.

👋 Денис Антюхов и Валентина Хлебутина поделятся опытом интеграции GigaChat и виртуального ассистента Салют, описывая технологические и продуктовые аспекты этого процесса.

👋 Александр Капитанов выступит с докладом об AI-сервисе распознавания русского жестового языка и сценариях применения в общественных и образовательных сферах.

👋 Григорий Алексеенко расскажет о трансформенных нейросетях и представит MiVOLO — SOTA трансформер для определения пола и возраста по изображению.

👋 Альбина Хусаинова расскажет о нейронормализации текста для синтеза речи, о том, какие сложности возникают при встраивании нейронормализатора в систему, и почему оверфит — не всегда плохо.

👋 Игорь Пасечник проложит путь в будущее 3D контента и расскажет о новых генеративных 3D моделях и их применении для задач реконструкции реальных и создания виртуальных 3D окружений.

👋 Никита Мартынов представит инновационные подходы в обучении языковых генеративных моделей для коррекции правописания.

👋 Григорий Стерлинг поделится уникальным взглядом на сочетание биологии и физики в улучшении синтеза речи.

И многие другие прекрасные ребята и девушки из SberDevices выступят онлайн: 22 и 23 ноября. Участие бесплатно, регистрация не требуется.

Все подробности — здесь

Подписывайтесь 👉 Salute AI

#конференция_AI_Journey
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7
Григорий Алексеенко выступает с MiVOLO прямо сейчас к конференции AIJourney.

Присоединяйтесь!
🎉11👍7👏74