The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
Друзья, уже совсем скоро мы опубликуем нашу новую исследовательскую работу, и чтобы вы подошли к ней во всеоружии, мы подготовили для вас статью на Хабре “DETR: Бесконечная история” 🚀

Мы часто слышим о развитии YOLO, но как насчёт DETR? Несмотря на меньшее внимание, архитектура совершила настоящую революцию в мире детекторов. В нашей статье мы разобрали путь развития DETR от оригинальной версии до современных моделей, таких как DINO- или CO-DETR.

Если вы впервые слышите о DETR или хотите сначала освежить свои знания, то перед прочтением статьи можно ознакомиться с этими видео-разборами - тык, тык.

📚 Читать статью: тык
🔥106👍5
У нас отличные новости! 🔥🔥🔥

Сегодня была опубликована наша исследовательская работа: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней мы предлагаем новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей. Это было захватывающее приключение, полное вызовов и открытий, и теперь мы рады поделиться результатами с вами! 🥱🌿

Основные моменты нашей работы:
1. Saliency Guided Cross-Attention модуль
В рамках исследования мы разработали уникальный модуль, который эффективно объединяет признаки видеоклипов и пользовательских запросов, обеспечивая невероятное качество сопоставления

2. Гибридный детектор
Для эффективного решения задачи поиска моментов мы объединили гибкость современных фундаментальных видео энкодеров и точность гибридных DETR-like детекторов 🧑‍🎓

3. Фреймворк для генерации претрейн датасета
Во время нашего исследования мы столкнулись с важной проблемой: существенный дефицит данных для обучения модели. Поэтому мы разработали собственный метод автоматической разметки, и модель, обученная на полученных данных, показала результаты близкие к SOTA в zero-shot режиме, что стало для нас особым поводом для гордости 😎

Наша модель SG-DETR демонстрирует SOTA метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п. 🌿🌿🌿

Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро опубликуем в открытый доступ код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚
Please open Telegram to view this post
VIEW IN TELEGRAM
241163👍2❤‍🔥1🔥1
Лауреатами Нобелевской премии по физике за 2024 год стали Джон Хопфилд и Джеффри Хинтон! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥12🔥3🤔31👎1
Меня всегда очень радует, если технологии служат какой-то очень конкретной, доброй и общественно полезной цели.

Будучи студентом, я увлекался биоинформатикой (и даже в итоге диплом писал по этой теме) не в последнюю очередь из-за этого. Меня мотивировала наука, которая не просто изучает устройство мира, но ещё и находится на самом переднем краю борьбы с худшими болезнями.

Поэтому мне особенно приятно рассказать, что наши коллеги из команды RnD CV занимаются одной из таких общественно важных тем – применяют технологии машинного обучения для распознавания русского жестового языка. Ребята в этой области уже достаточно давно и сделали в неё немалый вклад. А в своей свежей статье на Хабре поведали о Bukva – первом полноценном видеонаборе данных для распознавания дактильной азбуки 🔥
В процессе его создания ребята использовали MiVOLOv2!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥5🤯1
Мы тут ведём очень активную работу по развитию GigaCheck, и скоро надеемся много интересного рассказать.

А пока, уже по традиции, у нас есть для вас прогревочная статья.
Если вдруг вы пропустили весь движ (или просто не успели вникнуть) с Mamba – очень интересной альтернативой трансформерам, то вам должен показаться увлекательным наш обзор:

https://habr.com/ru/companies/sberdevices/articles/855080/
🔥1344👍1
В ходе работы над нашей статьей по детекции сгенерированных текстов (GigaCheck), сравнивая наш метод с уже существующими, мы также решили замерить подход авторов статьи Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts 2023 года, так как в ней заявляется SOTA качество.

Кстати, среди авторов статьи Техножрица. Если вдруг не подписаны на её канал, то вот пост по этой работе, ну и там много других интересных!

Сравниваемые методы определяют, является ли весь текст написанным человеком или сгенерированным LLM. Подход авторов использует методы топологического анализа данных (TDA) и с помощью подсчёта внутренней размерности текста (на основе эмбеддингов, полученных из языковой модели RoBERTa) с заранее заданным трешхолдом классифицирует текст.
Наш метод основан на использовании LLM (на днях опубликуем препринт со всеми деталями).

Мы сравнили подходы на пяти датасетах (см. пикчу ниже постом).
Для каждого трешхолд для порогового классификатора был выбран на основе лучшего accuracy на валидационном сете. К сожалению, нам не удалось воспроизвести результаты авторов и точность подхода, основанного на PHD (Persistence Homology Dimension), получилось около рандомной.

Можно предположить, что подсчитанная способом авторов внутренняя размерность человеческих и сгенерированных текстов не является универсальным признаком для классификации. До конца причина такого качества пока не ясна, возможно авторы работы ещё помогут нам разобраться (мы с ними связались). Тем не менее, подход является важным академическим шагом на пути к решению задачи сгенерированного контента.

На самом деле, задача детекции сгенерированных текстов крайне сложная и очень чувствительная к данным, поэтому в нашей статье мы постарались провести замеры на большом количестве самых разнообразных текстов (полученных из разных доменов, разными генераторами), чтобы получить репрезентативные результаты.

В общем, stay tuned — совсем скоро мы раскроем все детали о собственном точном и устойчивом решении, пригодном не только для задачи бинарной классификации, но и для интервального анализа смешанных текстов, написанных совместно человеком и генеративной моделью.
🤯106🔥52👍1
🔥63👏2
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
🔥18🎉6🏆521🙏1
Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на AIJ и рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу.

Представляем Malvina. Multimodal Artificial Language VIsion Neural Assistant.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.

Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.

Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.

Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.

Так что, задача очень сложная и амбициозная, ждите релиза!
🔥316😁2🤯2👍1
Немного примеров (конечно же, черрипики 😁)
🔥268🤯7👏1🎉1
Возвращаем нашу рубрику с обзорами.

Интересная работа – VisionZip: Longer is Better but Not Necessary in Vision Language Models. Если по сути, то рассматривается старая, как мир, идея, что изображения, в отличие от текста, достаточно неплотный по семантике формат и с этим что-то можно сделать.

Вся область компьютерного зрения всеми возможными способами танцует вокруг этой проблемы. Но, в контексте больших мультимодальных моделей она приобретает новые краски, поскольку, как известно, с количеством токенов квадратично растёт и сложность.
А в последних моделях, с учётом всех трюков, количество визуальных токенов уже совсем неслабое. Например, в LLaVA-NeXT изображение 672х672 будет преобразовано в 2880 токенов.

Авторы считают, что так жить нельзя и предлагают следующее решение: изображение прогоняется через визуальный энкодер на трансформерной архитектуре, после чего извлекаются значения внимания и на этой основе принимается решение, какие токены очень важны, а какие чуть менее и вообще просто кодируют контекст. При этом, по-разному производится работа с FE, где есть CLS-токен и где нет. В первом случае, считается внимание по отношению к CLS-токену (т.к. в нём глобальная информация), в других же случаях просто усредняется внимание по отношению ко всем остальным токенам по оси количества голов.

Критически важные токены берутся без изменений, а остальные агрегируются (через усреднение, опять же) по принципу похожих. Дальнейший процесс как обычно, см. схему.
Метод можно использовать прямо как есть, без файнтюна, но будет чуть хуже - пространства могут не совпадать. Но даже так неплохо.
А с трейном так и совсем хорошо. У авторов вышло, что, порезав 77.8% токенов в LLaVA-NeXT, можно сохранить 98.9% оригинальной точности. Рост скорости очевиден – 13B модель начинает работать быстрее 7B. И при этом, всё ещё чуть качественнее.

Разгорячившись, ребята попробовали с наскока залезть и в видео. Вышло, что Video-LLaVA на 136 токенах (вместо 2048) сохраняет 93.2% оригинального качества в варианте без тренировки.

Тут, конечно, стоит быть осторожными с выводами. Результаты выглядят впечатляюще, и статья получила заметное внимание, но стоит помнить о некотором кризисе с замером качества у моделей общего назначения. Может оказаться, что эти несколько процентов убивают весь перформанс в реальных задачах.
Но, можно пощупать самостоятельно в демке, пока она жива. С наскока кажется, что вроде бы как минимум работоспособно, ну и там есть интересная визуализация.
🔥14👍3