The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
🔥63👏2
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
🔥18🎉6🏆521🙏1
Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на AIJ и рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу.

Представляем Malvina. Multimodal Artificial Language VIsion Neural Assistant.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.

Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.

Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.

Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.

Так что, задача очень сложная и амбициозная, ждите релиза!
🔥316😁2🤯2👍1
Немного примеров (конечно же, черрипики 😁)
🔥268🤯7👏1🎉1
Возвращаем нашу рубрику с обзорами.

Интересная работа – VisionZip: Longer is Better but Not Necessary in Vision Language Models. Если по сути, то рассматривается старая, как мир, идея, что изображения, в отличие от текста, достаточно неплотный по семантике формат и с этим что-то можно сделать.

Вся область компьютерного зрения всеми возможными способами танцует вокруг этой проблемы. Но, в контексте больших мультимодальных моделей она приобретает новые краски, поскольку, как известно, с количеством токенов квадратично растёт и сложность.
А в последних моделях, с учётом всех трюков, количество визуальных токенов уже совсем неслабое. Например, в LLaVA-NeXT изображение 672х672 будет преобразовано в 2880 токенов.

Авторы считают, что так жить нельзя и предлагают следующее решение: изображение прогоняется через визуальный энкодер на трансформерной архитектуре, после чего извлекаются значения внимания и на этой основе принимается решение, какие токены очень важны, а какие чуть менее и вообще просто кодируют контекст. При этом, по-разному производится работа с FE, где есть CLS-токен и где нет. В первом случае, считается внимание по отношению к CLS-токену (т.к. в нём глобальная информация), в других же случаях просто усредняется внимание по отношению ко всем остальным токенам по оси количества голов.

Критически важные токены берутся без изменений, а остальные агрегируются (через усреднение, опять же) по принципу похожих. Дальнейший процесс как обычно, см. схему.
Метод можно использовать прямо как есть, без файнтюна, но будет чуть хуже - пространства могут не совпадать. Но даже так неплохо.
А с трейном так и совсем хорошо. У авторов вышло, что, порезав 77.8% токенов в LLaVA-NeXT, можно сохранить 98.9% оригинальной точности. Рост скорости очевиден – 13B модель начинает работать быстрее 7B. И при этом, всё ещё чуть качественнее.

Разгорячившись, ребята попробовали с наскока залезть и в видео. Вышло, что Video-LLaVA на 136 токенах (вместо 2048) сохраняет 93.2% оригинального качества в варианте без тренировки.

Тут, конечно, стоит быть осторожными с выводами. Результаты выглядят впечатляюще, и статья получила заметное внимание, но стоит помнить о некотором кризисе с замером качества у моделей общего назначения. Может оказаться, что эти несколько процентов убивают весь перформанс в реальных задачах.
Но, можно пощупать самостоятельно в демке, пока она жива. С наскока кажется, что вроде бы как минимум работоспособно, ну и там есть интересная визуализация.
🔥14👍3
По каким-то причинам, известная фотография великого Николы Теслы особенно хорошо работает в нашем пайплайне редактирования изображений :)

Не иначе как, фото заряжено на науку.
🔥10😁332👍1