NEW BOT Телеграм, страница - 187380135

The Layer

889 subscribers

113 photos

10 videos

4 files

84 links

Канал команды компьютерного зрения Layer, R&D Department, SberDevices

Download Telegram

About

Blog

Apps

Platform

889 subscribers

Media is too big

VIEW IN TELEGRAM

Мы тут прикрутили к MiVOLO возможность работать с видео и по этому случаю решили немного поразвлекаться.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко😅).
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.

В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤5👍2😁2

828 views10:30

У нас есть Телеграм Бот: @Layer_photobot, в который можно закинуть фотку и поискать похожие предметы одежды или аксессуары.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).

P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.

🔥10🤗4😱1

873 views18:48

😁11

825 views17:13

Back To The Future

765 views17:13

Всё больше и больше набирают обороты open-vocabulary (OV) методы в компьютерном зрении. Это подходы, позволяющие вместо фиксированного списка категорий для классификации, детекции, сегментации, whatever, задавать теги \ текстовые описания искомых классов. Таким образом, модели учатся понимать и сравнивать семантику текста и изображения.

Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.

Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.

Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.

В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.

👏4👍3🔥3

954 views14:37

Что скажете насчёт идеи оставлять аудио-комментарии в коде?

Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅

🤯12💩10👍3😁2

1.1K views13:01

Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.

Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12🎉6👏4👍2

861 views09:00

Пятничное

😁7🤣2

647 views15:13

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).

Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.

Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.

Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.

#объяснения_статей

❤8👏4⚡2

712 views15:26

Media is too big

VIEW IN TELEGRAM

МегаМаркет рассказали о своей новой фиче, которая использует наш CV движок, на конференции🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍3👏1🎉1

656 viewsedited 15:52

Вдруг вы ещё не видели, тут говорят всё, доигрались мы.
Тыц Arxiv

На всякий случай, вдруг не все выкупят - ребята просто угорают, это статья-шутка.
В посте так же обыгрывается

этот мем.

🤣4👍1😁1

715 views16:41

О нас пишут, своеобразно, но в достаточно крупном паблике 😄
Мы не знаем, кто автор, скорее всего, это действительно частный пост.

508 views16:25

Forwarded from Из коммерса в е-коммерса (Юрий Сапожников)

Мегамаркет раскатил инструмент поиска одежды по фото в приложении, который презентовал пару недель назад на конференции.

Помимо одежды можно искать обувь и аксессуары, а помимо фоток с камеры можно подгружать и обычные картинки из галереи.

Больше всего меня удивило (я сначала даже не заметил этой особенности), что алгоритмы ММ умеют считывают пол человека и не предлагать, условно, женскую юбку вместо мужских шорт. Даже у этого типочка ММ определил верный пол, хотя тут уже с какой стороны посмотреть.

👍 «Из коммерса в е-коммерса»

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡8👍3🔥3

624 views16:25

Выступили на первом дне VideoTech2023, пока что снова с MiVOLO.

А завтра вообще вбросим мошнейщий анонс новой технологии 🤘
Мы очень долго молчали и держали в секрете разработку, но время пришло, пора выпускать зверя⚡️

Поскольку конференция платная и записи в открытом доступе появятся сильно позже, сделаем в этой группе специальный пост с демо-примером и интерактивом.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7⚡5🔥5❤2

591 views16:47

This media is not supported in your browser

VIEW IN TELEGRAM

Надеюсь, у вас уже пятничное настроение? А то тут есть новости под такое🤘

Сегодня мы снова выступали на VideoTech2023, где Александр Гордеев рассказал о нашей новой технологии: Video Highlights Detection.

Как следует из названия, речь идёт о полностью автоматической технологии детекции интересных фрагментов (они же шортсы, они же хайлайты, они же моменты и пр.) в фильме. Вы такие наверняка встречали в своих ньюсфидах - сложно не залипнуть.
Обычно они создаются людьми и это, очевидно, процесс очень трудоёмкий. Поэтому, тяжело переоценить перспективы его автоматизации.

Под капотом технологии - непростой пайплайн с мультимодальным трансформером. Насколько нам известно и насколько можно исходить из общедоступной информации - это первый такой пайплайн для русскоязычного контента.

Если интересны технические детали, то вот презентация.

🎦В качестве демо отрывочек из Один Дома. Новый Год же скоро! Естественно, он был получен без какого-либо участия человека.

🔥14❤3👏3👍1👎1

750 viewsedited 16:56

Оказывается, в самый ответственный момент у нас отвалились комментарии 😅
Возвращаем! А в прошлый пост добавили демо-шортс.

😁4😢1

665 views19:31

Forwarded from Salute AI (Alexander Gavrilov)

⚡️

Кто будет выступать от SberDevices на ключевой ИИ-конференции «AI Journey»

Уже завтра начнётся ключевая онлайн-конференция в сфере технологий искусственного интеллекта «AI Journey», где эксперты SberDevices расскажут о том, как мы создаём русский инструктивный бенчмарк для LLM, разрабатываем уникальные генеративные модели и AI-сервисы, какие технологии для этого применяем и зачем это всё вообще нужно.

В программе — доклады, которые можно послушать на «AI Journey» от SberDevices:

👋

Алёна Феногенова и Денис Димитров (Sber AI) выступят с докладом о MERA: инструктивном бенчмарке для русского языка для оценки фундаментальных LLM.

👋

Денис Антюхов и Валентина Хлебутина поделятся опытом интеграции GigaChat и виртуального ассистента Салют, описывая технологические и продуктовые аспекты этого процесса.

👋

Александр Капитанов выступит с докладом об AI-сервисе распознавания русского жестового языка и сценариях применения в общественных и образовательных сферах.

👋

Григорий Алексеенко расскажет о трансформенных нейросетях и представит MiVOLO — SOTA трансформер для определения пола и возраста по изображению.

👋

Альбина Хусаинова расскажет о нейронормализации текста для синтеза речи, о том, какие сложности возникают при встраивании нейронормализатора в систему, и почему оверфит — не всегда плохо.

👋

Игорь Пасечник проложит путь в будущее 3D контента и расскажет о новых генеративных 3D моделях и их применении для задач реконструкции реальных и создания виртуальных 3D окружений.

👋

Никита Мартынов представит инновационные подходы в обучении языковых генеративных моделей для коррекции правописания.

👋

Григорий Стерлинг поделится уникальным взглядом на сочетание биологии и физики в улучшении синтеза речи.

И многие другие прекрасные ребята и девушки из SberDevices выступят онлайн: 22 и 23 ноября. Участие бесплатно, регистрация не требуется.

Все подробности — здесь

✅

Подписывайтесь 👉 Salute AI

#конференция_AI_Journey

Please open Telegram to view this post

VIEW IN TELEGRAM

Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта

Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта.

❤9🔥7

761 views10:19

Григорий Алексеенко выступает с MiVOLO прямо сейчас к конференции AIJourney.

Присоединяйтесь!

🎉11👍7👏7❤4

902 viewsedited 15:17

😁3

605 views18:31