The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.

Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🎉6👏4👍2
Пятничное
😁7🤣2
Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).

Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.

Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.

Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.

#объяснения_статей
8👏42
Media is too big
VIEW IN TELEGRAM
МегаМаркет рассказали о своей новой фиче, которая использует наш CV движок, на конференции🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3👏1🎉1
Вдруг вы ещё не видели, тут говорят всё, доигрались мы.
Тыц Arxiv


На всякий случай, вдруг не все выкупят - ребята просто угорают, это статья-шутка.
В посте так же обыгрывается
этот мем.
🤣4👍1😁1
О нас пишут, своеобразно, но в достаточно крупном паблике 😄
Мы не знаем, кто автор, скорее всего, это действительно частный пост.
Forwarded from Из коммерса в е-коммерса (Юрий Сапожников)
Мегамаркет раскатил инструмент поиска одежды по фото в приложении, который презентовал пару недель назад на конференции.

Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.

Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.

👍 «Из коммерса в е-коммерса»
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3🔥3
Выступили на первом дне VideoTech2023, пока что снова с MiVOLO.

А завтра вообще вбросим мошнейщий анонс новой технологии 🤘
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя⚡️

Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
Надеюсь, у вас уже пятничное настроение? А то тут есть новости под такое🤘

Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.

Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.

Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.

Если интересны технические детали, то вот презентация.

🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.
🔥143👏3👍1👎1
Оказывается, в самый ответственный момент у нас отвалились комментарии 😅
Возвращаем! А в прошлый пост добавили демо-шортс.
😁4😢1
Forwarded from Salute AI (Alexander Gavrilov)
⚡️ Кто будет выступать от SberDevices на ключевой ИИ-конференции «AI Journey»

Уже завтра начнётся ключевая онлайн-конференция в сфере технологий искусственного интеллекта «AI Journey», где эксперты SberDevices расскажут о том, как мы создаём русский инструктивный бенчмарк для LLM, разрабатываем уникальные генеративные модели и AI-сервисы, какие технологии для этого применяем и зачем это всё вообще нужно.

В программе — доклады, которые можно послушать на «AI Journey» от SberDevices:

👋 Алёна Феногенова и Денис Димитров (Sber AI) выступят с докладом о MERA: инструктивном бенчмарке для русского языка для оценки фундаментальных LLM.

👋 Денис Антюхов и Валентина Хлебутина поделятся опытом интеграции GigaChat и виртуального ассистента Салют, описывая технологические и продуктовые аспекты этого процесса.

👋 Александр Капитанов выступит с докладом об AI-сервисе распознавания русского жестового языка и сценариях применения в общественных и образовательных сферах.

👋 Григорий Алексеенко расскажет о трансформенных нейросетях и представит MiVOLO — SOTA трансформер для определения пола и возраста по изображению.

👋 Альбина Хусаинова расскажет о нейронормализации текста для синтеза речи, о том, какие сложности возникают при встраивании нейронормализатора в систему, и почему оверфит — не всегда плохо.

👋 Игорь Пасечник проложит путь в будущее 3D контента и расскажет о новых генеративных 3D моделях и их применении для задач реконструкции реальных и создания виртуальных 3D окружений.

👋 Никита Мартынов представит инновационные подходы в обучении языковых генеративных моделей для коррекции правописания.

👋 Григорий Стерлинг поделится уникальным взглядом на сочетание биологии и физики в улучшении синтеза речи.

И многие другие прекрасные ребята и девушки из SberDevices выступят онлайн: 22 и 23 ноября. Участие бесплатно, регистрация не требуется.

Все подробности — здесь

Подписывайтесь 👉 Salute AI

#конференция_AI_Journey
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7
Григорий Алексеенко выступает с MiVOLO прямо сейчас к конференции AIJourney.

Присоединяйтесь!
🎉11👍7👏74
😁3
Наш паблик, по задумке, рассчитан на самую разную аудиторию: от просто сопереживающих до опытных специалистов. Чтобы эту дисперсию сгладить, иногда мы будем писать быстрые гайды для погружения в тему.

Сегодня поговорим о том, понимание чего читателю пригодится в наших будущих постах (🤫) - больших мультимодальных моделях (LMM).
Говорить будем в разрезе задачи визуального ассистента: т.е., в простейшем случае речь идёт об изображение + текст на входе -> текст на выходе.

Любой, у кого есть подписка на платную версию ChatGPT, в общем-то хорошо понимает, о чём речь.
А что происходит в опенсорсе?

17 апреля 2023 года, ещё до релиза превью мультимодальной ChatGPT-4V, вышла работа LLaVA (Large Language and Vision Assistant). В среде специалистов она наделала много шума, поскольку всё гениально - просто, и авторы, не сделав ничего недоступного другим, сумели достичь блестящих результатов.

Маленькое отступление: краеугольным камнем всех моделей-ассистентов являются инструктивные данные. В нашем случае они выглядят как картинка + инструкция. Например, можно подать изображение с тем, как человек меняет колесо автомобиля на обочине дороги на вход и попросить сеть описать, какую проблему человек решает, почему она возникла и пр. Такие данные мощно драйвят модель к глубокому пониманию сути вещей.

Так вот, в LLaVA, авторы решили собирать такие инструктивные данные для обучения через ChatGPT, поскольку это мощная модель, способная создавать и сами инструкции, и ответы к ним. А ещё потому что люди такие описания делают достаточно плохо.
Но, поскольку картинки ChatGPT съесть ещё не была способна, они хитрым образом извернулись и подавали подробные текстовые описания изображений, включающие даже баундинг боксы объектов.
Дальше всё достаточно просто: собрав качественные инструктивные данные, авторы взяли LLM Vicuna и ViT-L/14 энкодер из CLIP, и собрали всё это вместе. Таким образом, на вход LLM подаётся текст + эмбеддинги изображения. А чтобы эти визуальные эмбеддинги перевести в текстовое гиперпространство, авторы докинули простой линейный слой. Т.е., тренировка состоит из двух этапов: сначала всё, кроме проекционного слоя замораживается и обучается он, затем размораживается ещё и LLM, чтобы обучить ассистента. Визуальный энкодер остаётся в снегу на всех этапах.

Можете посмотреть демо самостоятельно. Итоговая модель оказалась весьма хороша, особенно с учётом того, как данные собирались, что их было немного и относительной простоты всей системы.
Короче, подход взлетел.

Затем была LLaVA 1.5 с небольшими улучшениями и исправлениями (например, заменили линейный слой на MLP - Multi layer perceptron, ну и много другого поправили), а в конце ноября вышла ShareGPT4V.

Авторы первыми дерзко-резко подорвались и исправили главную проблему LLaVA: они набрали данные из ChatGPT-4V, т.е. с уже нормальной мультимодальностью, а не текстовым описанием изображения. Самой большой и нераскрытой интригой статьи остаётся то, как они обошли ограничение в 100 запросов в день, которое на тот момент действовало для всех :)

Но, как бы то ни было, причесав данные и особо даже ничего больше и не меняя, ребята мощно стрельнули: сеть на данный момент или лучшая из открытых, или одна из лучших, смотря на чём смотреть.
Вот тут можно поиграть с демо (ему изредка плохеет и оно ложится).

Ну и там уже гору всяких вариаций понаделали: LLaVAR (улучшение для OCR задач), LLaVA-Grounding (детекция и сегментация), LLaVA-Interactive (для визуального взаимодействия), LLaVA-Plus (для всего на свете), Video-LLaVA и даже LLaVA-Med.
🔥18👍1
Смотрите какая прикольная штука появилась вчера - ReplaceAnything.
Пока нет почти ничего - ни кода, ни статьи, ни пояснений.

Зато есть демо, очень подходящее для поиграться на выходных и оно прямо 🔥
Суть проста, сначала нужно загрузить пикчу во вкладке Image Create.
Потом, можно выделить то, что хочется защитить от изменений (foreground) и что можно изменять (background).
Снизу в поле нужно ввести какой-нибудь промт, например, для второй фотки я ввёл что-то вроде такого:
A man wearing a coat, holding a cup of coffee in his hand, stands in a square near the Eiffel Tower


Подождём технических деталей, хотя уже видны особенности, характерные для похожих подходов, например Instruct Pix2Pix. В частности - сложности с пониманием текста (на 3 фото в запросе была бутылка водки, а не пивас).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥9
Изначально текст писался для нашего паблика, но постепенно он вылез за пределы формата Телеграма и пришлось заливать на Habr😅

В общем, TL;DR:
Наткнулся на серию интересных научных статей по теме защиты работ художников от генеративных сетей. Вероятно, это не самая обсуждаемая тема, хотя для многих людей развитие нейросетей стало уже сейчас, без преувеличения, катастрофой.

В одной из работ есть весьма любопытный опрос профессиональных художников и там всё весьма сурово: достаточно сказать, что 78% авторов ожидают, что ИИ повлияет на их трудоустройство, а 77% оценивают качество копирования стиля человека нейросетью как хорошее или очень хорошее.

Разбираю в посте очень высокоуровнево два подхода, разработанных для защиты работ от использования в генеративных моделях. Второй (Nightshade) особенно интересен - сгенерировав с его помощью всего от 25 сэмплов, можно успешно атаковать модель (в контексте авторов - защитить работы). При условии, конечно, что они в трейнсет модели попадут, например, в процессе веб-скрейпинга. И мы говорим, если что, о сетях, у которых размеры трейнсетов начинаются на сотнях миллионов примеров, а обычно речь о миллиардах. С учётом, как всё это собирается и чистится в случае открытых данных (частенько примерно никак), подобные тулы могут представлять существенную угрозу в будущем и будут стимулировать очень серьёзно подходить к фильтрации данных.

Больше деталей в фулле: https://habr.com/ru/articles/785088/
🔥8👍3
Аж 4 дня, как вышла LMM LLaVA-1.6, а времени написать о ней всё не было. А есть о чём.

Самое главное и долгожданное мной изменение, это то, что авторы называют Dynamic High Resolution – способ работы с изображениями произвольного размера на вход. Дело в том, что оригинальной работе и в версии 1.5 использовалось фиксированное разрешение (224х224 и 336х336), но это было не от хорошей жизни. Тоже самое и в большинстве альтернативных подходов.
При этом, с самого начала не скрывалось использование динамического метода в ChatGPT-V, что понятно хотя бы даже из пояснений к прайсингу. Преимущества для работы с деталями, небольшими объектами и текстом очевидны, и поэтому вопрос перехода к чему-то подобному был делом времени.

В общем, вот как авторы LLaVA это решают: они берут CLIP-ViT-L-14 и разбивают в соответствии с заданными схемами изображение на кусочки по 224х224 (что интересно, у ChatGPT разбивается на 512x512), которые процессят независимо энкодером. Параллельно, по-старинке, процессят и изображение целиком. Последнее нужно для передачи глобального контекста, а так же, чтобы компенсировать артефакты первого. В аппендиксе статьи показано на метриках, что это играет существенную роль.
Затем всё вместе загоняют в LLM.
Поскольку сетки разбиения предопределены, максимальное разрешение ограничено размерами 672x448 или 448x672.

Есть, также, ряд других улучшений и, по итогу, LLaVA-1.6 в версии 34B перформит соизмеримо с коммерческими моделями: умудрилась на нескольких бенчмарках даже обойти ChatGPT-V, на большей части Gemini Pro (предпоследняя по мощности модель от Google) и на всех представленных Qwen-VL-Plus (от Alibaba). Детальнее можно посмотреть на сайте или в обновлённой статье LLaVa-1.5.
Результаты для открытой сети с доступным трейн кодом совершенно ошеломительные и круто задрайвят развитие области.
Демка тут.
👍6🔥5👏1