🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.
TL;DR Вынесли вообще всех.
Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖
🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.
🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3
✅ Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️
📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.
CV-шники идут в NLP 😎
Мы надеемся, что наш метод вдохновит будущих исследователей! 📈
📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.
TL;DR Вынесли вообще всех.
Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖
🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.
🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3
✅ Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️
📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.
CV-шники идут в NLP 😎
Мы надеемся, что наш метод вдохновит будущих исследователей! 📈
📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
🔥18🎉6🏆5 2❤1🙏1
Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на AIJ и рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу.
Представляем Malvina.Multimodal Artificial Language VIsion Neural Assistant.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.
Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.
Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.
Так что, задача очень сложная и амбициозная, ждите релиза!
Представляем Malvina.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.
Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.
Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.
Так что, задача очень сложная и амбициозная, ждите релиза!
🔥31❤6😁2🤯2👍1
Возвращаем нашу рубрику с обзорами.
Интересная работа – VisionZip: Longer is Better but Not Necessary in Vision Language Models. Если по сути, то рассматривается старая, как мир, идея, что изображения, в отличие от текста, достаточно неплотный по семантике формат и с этим что-то можно сделать.
Вся область компьютерного зрения всеми возможными способами танцует вокруг этой проблемы. Но, в контексте больших мультимодальных моделей она приобретает новые краски, поскольку, как известно, с количеством токенов квадратично растёт и сложность.
А в последних моделях, с учётом всех трюков, количество визуальных токенов уже совсем неслабое. Например, в LLaVA-NeXT изображение 672х672 будет преобразовано в 2880 токенов.
Авторы считают, что так жить нельзя и предлагают следующее решение: изображение прогоняется через визуальный энкодер на трансформерной архитектуре, после чего извлекаются значения внимания и на этой основе принимается решение, какие токены очень важны, а какие чуть менее и вообще просто кодируют контекст. При этом, по-разному производится работа с FE, где есть CLS-токен и где нет. В первом случае, считается внимание по отношению к CLS-токену (т.к. в нём глобальная информация), в других же случаях просто усредняется внимание по отношению ко всем остальным токенам по оси количества голов.
Критически важные токены берутся без изменений, а остальные агрегируются (через усреднение, опять же) по принципу похожих. Дальнейший процесс как обычно, см. схему.
Метод можно использовать прямо как есть, без файнтюна, но будет чуть хуже - пространства могут не совпадать. Но даже так неплохо.
А с трейном так и совсем хорошо. У авторов вышло, что, порезав 77.8% токенов в LLaVA-NeXT, можно сохранить 98.9% оригинальной точности. Рост скорости очевиден – 13B модель начинает работать быстрее 7B. И при этом, всё ещё чуть качественнее.
Разгорячившись, ребята попробовали с наскока залезть и в видео. Вышло, что Video-LLaVA на 136 токенах (вместо 2048) сохраняет 93.2% оригинального качества в варианте без тренировки.
Тут, конечно, стоит быть осторожными с выводами. Результаты выглядят впечатляюще, и статья получила заметное внимание, но стоит помнить о некотором кризисе с замером качества у моделей общего назначения. Может оказаться, что эти несколько процентов убивают весь перформанс в реальных задачах.
Но, можно пощупать самостоятельно в демке, пока она жива. С наскока кажется, что вроде бы как минимум работоспособно, ну и там есть интересная визуализация.
Интересная работа – VisionZip: Longer is Better but Not Necessary in Vision Language Models. Если по сути, то рассматривается старая, как мир, идея, что изображения, в отличие от текста, достаточно неплотный по семантике формат и с этим что-то можно сделать.
Вся область компьютерного зрения всеми возможными способами танцует вокруг этой проблемы. Но, в контексте больших мультимодальных моделей она приобретает новые краски, поскольку, как известно, с количеством токенов квадратично растёт и сложность.
А в последних моделях, с учётом всех трюков, количество визуальных токенов уже совсем неслабое. Например, в LLaVA-NeXT изображение 672х672 будет преобразовано в 2880 токенов.
Авторы считают, что так жить нельзя и предлагают следующее решение: изображение прогоняется через визуальный энкодер на трансформерной архитектуре, после чего извлекаются значения внимания и на этой основе принимается решение, какие токены очень важны, а какие чуть менее и вообще просто кодируют контекст. При этом, по-разному производится работа с FE, где есть CLS-токен и где нет. В первом случае, считается внимание по отношению к CLS-токену (т.к. в нём глобальная информация), в других же случаях просто усредняется внимание по отношению ко всем остальным токенам по оси количества голов.
Критически важные токены берутся без изменений, а остальные агрегируются (через усреднение, опять же) по принципу похожих. Дальнейший процесс как обычно, см. схему.
Метод можно использовать прямо как есть, без файнтюна, но будет чуть хуже - пространства могут не совпадать. Но даже так неплохо.
А с трейном так и совсем хорошо. У авторов вышло, что, порезав 77.8% токенов в LLaVA-NeXT, можно сохранить 98.9% оригинальной точности. Рост скорости очевиден – 13B модель начинает работать быстрее 7B. И при этом, всё ещё чуть качественнее.
Разгорячившись, ребята попробовали с наскока залезть и в видео. Вышло, что Video-LLaVA на 136 токенах (вместо 2048) сохраняет 93.2% оригинального качества в варианте без тренировки.
Тут, конечно, стоит быть осторожными с выводами. Результаты выглядят впечатляюще, и статья получила заметное внимание, но стоит помнить о некотором кризисе с замером качества у моделей общего назначения. Может оказаться, что эти несколько процентов убивают весь перформанс в реальных задачах.
Но, можно пощупать самостоятельно в демке, пока она жива. С наскока кажется, что вроде бы как минимум работоспособно, ну и там есть интересная визуализация.
🔥14👍3
По каким-то причинам, известная фотография великого Николы Теслы особенно хорошо работает в нашем пайплайне редактирования изображений :)
Не иначе как, фото заряжено на науку.
Не иначе как, фото заряжено на науку.
🔥10😁3 3 2👍1