Встречайте GigaCheck – наш внезапный, удивительный и потрясающий продукт для детектирования русскоязычных текстов, сгенерированных LLM.
Всего за год экспериментальный проект эволюционировал до серьёзного продукта и технологии с SOTA качеством среди всего известного на данный момент. Понимаю, заявление громкое, но подождите, мы в скорости выпустим статью и расставим все точки во флоатах.
То, что задача горячая, думаю, доказывать не нужно: чего сейчас только LLM ассистенты не делают за людей – и знакомятся, и дипломы пишут, и бизнес планируют. Не сомневаюсь, что вы встречали это в новостях.
Больше хочется поговорить про решаемость задачи. Мнения тут сильно разнятся – не специалисты почему-то зачастую крепко убеждены, что распознать текст, сгенерированный LLM очень просто, в то время как в профессиональной среде популярно ровно обратное мнение: задача нерешаема. Подливает масла в огонь и то, что OpenAI делали свой собственный детектор, но спустя непродолжительное время его спрятали, посчитав нерабочим.
В пабликах по всему Телеграму можно найти много достаточно близких мнений: раз, два, три... имя им легион.
Да, задача, безусловно, очень сложная, а ещё для решения требуется много данных, кропотливого труда, усердия и постоянной поддержки в проде.
Но, если очертить ей какие-то практические рамки, то всё меняется.
Сделаю маленькое отступление: во многих сферах, например, в вопросах противодействия угону автомобиля, известен такой феномен, что пытаться сделать защиту абсолютной – бессмысленно, если прямо очень понадобится, злоумышленники всё равно решат вопрос. У борьбы меча и щита просто нет конца, это основа мироздания. Но зато можно защититься в такой мере, что риски и затраты перевесят выгоду.
Тут история близкая. В практическом применении совершенный детектор не нужен. Нужно, чтобы текст для обхода детектора пришлось бы достаточно сильно исказить и он стал бесполезен для использования. Ну или вынудить переписывать и подбирать текст так долго, что гораздо дешевле окажется сразу написать самому.
Это та цель, которую мы преследовали, и, в рамках первой итерации, достигли.
Конечно, детектор ещё иногда ошибается (например, есть проблемы со стихами), но и мы ещё не закончили.
GigaCheck доступен:
- На сайте developers.sber.ru.
- Как Телеграм бот: @layer_ai_detector_bot
- Как API для бизнеса [скоро].
А ещё мы скоро выпустим дополнение – интервальную детекцию, которая позволяет работать со смешанными текстами.
Всего за год экспериментальный проект эволюционировал до серьёзного продукта и технологии с SOTA качеством среди всего известного на данный момент. Понимаю, заявление громкое, но подождите, мы в скорости выпустим статью и расставим все точки во флоатах.
То, что задача горячая, думаю, доказывать не нужно: чего сейчас только LLM ассистенты не делают за людей – и знакомятся, и дипломы пишут, и бизнес планируют. Не сомневаюсь, что вы встречали это в новостях.
Больше хочется поговорить про решаемость задачи. Мнения тут сильно разнятся – не специалисты почему-то зачастую крепко убеждены, что распознать текст, сгенерированный LLM очень просто, в то время как в профессиональной среде популярно ровно обратное мнение: задача нерешаема. Подливает масла в огонь и то, что OpenAI делали свой собственный детектор, но спустя непродолжительное время его спрятали, посчитав нерабочим.
В пабликах по всему Телеграму можно найти много достаточно близких мнений: раз, два, три... имя им легион.
Да, задача, безусловно, очень сложная, а ещё для решения требуется много данных, кропотливого труда, усердия и постоянной поддержки в проде.
Но, если очертить ей какие-то практические рамки, то всё меняется.
Сделаю маленькое отступление: во многих сферах, например, в вопросах противодействия угону автомобиля, известен такой феномен, что пытаться сделать защиту абсолютной – бессмысленно, если прямо очень понадобится, злоумышленники всё равно решат вопрос. У борьбы меча и щита просто нет конца, это основа мироздания. Но зато можно защититься в такой мере, что риски и затраты перевесят выгоду.
Тут история близкая. В практическом применении совершенный детектор не нужен. Нужно, чтобы текст для обхода детектора пришлось бы достаточно сильно исказить и он стал бесполезен для использования. Ну или вынудить переписывать и подбирать текст так долго, что гораздо дешевле окажется сразу написать самому.
Это та цель, которую мы преследовали, и, в рамках первой итерации, достигли.
Конечно, детектор ещё иногда ошибается (например, есть проблемы со стихами), но и мы ещё не закончили.
GigaCheck доступен:
- На сайте developers.sber.ru.
- Как Телеграм бот: @layer_ai_detector_bot
- Как API для бизнеса [скоро].
Интересный факт:
Ради интереса мы прогнали 220 000 текстов, взятых за последний месяц из крупных новостных изданий. Оказалось, что 6% из них были сгенерированы LLM, а в случае некоторых конкретных изданий эта доля больше трети!
А ещё мы скоро выпустим дополнение – интервальную детекцию, которая позволяет работать со смешанными текстами.
🔥12 7❤3
Мы выпустили монстра из клетки: Цербер уже тут 🔥
Цербер – наша многоголовая модель для детекции объектов, такая же используется в беспилотниках Тесла (HydraNets).
Он работал верой и правдой в сервисах Layer годами, а сегодня мы хотим открыть его миру.
Фишки модели:
- Позволяет тренироваться на нескольких датасетах одновременно, таким образом избегая единой разметки, которая не всегда возможна и всегда болезненна.
- Классы, атрибуты или любые другие аннотации в этих датасетах могут быть конфликтующими – никаких проблем. Например, в одном датасете светофор обводили боксом вместе со столбом, а в другом нет.
- Уже на двух задачах / датасетах ускоряет тренировку и инференс на 36%, если сравнивать со специализированными моделями. Чем больше задач, тем больше ускорение. На 8 задачах ускорение будет больше 50%. Потери в точности, при этом, или отсутствуют, или минимальные.
- Возможность гибко интегрировать подход в любые другие детекционные архитектуры. В open source версии мы использовали YOLOv8x (anchor-free), но нет никаких проблем использовать совсем свежую YOLOv10 или DETR.
🐍 Код и реализация всех необходимых алгоритмов
📖 Статья со всеми деталями
Цербер – наша многоголовая модель для детекции объектов, такая же используется в беспилотниках Тесла (HydraNets).
Он работал верой и правдой в сервисах Layer годами, а сегодня мы хотим открыть его миру.
Фишки модели:
- Позволяет тренироваться на нескольких датасетах одновременно, таким образом избегая единой разметки, которая не всегда возможна и всегда болезненна.
- Классы, атрибуты или любые другие аннотации в этих датасетах могут быть конфликтующими – никаких проблем. Например, в одном датасете светофор обводили боксом вместе со столбом, а в другом нет.
- Уже на двух задачах / датасетах ускоряет тренировку и инференс на 36%, если сравнивать со специализированными моделями. Чем больше задач, тем больше ускорение. На 8 задачах ускорение будет больше 50%. Потери в точности, при этом, или отсутствуют, или минимальные.
- Возможность гибко интегрировать подход в любые другие детекционные архитектуры. В open source версии мы использовали YOLOv8x (anchor-free), но нет никаких проблем использовать совсем свежую YOLOv10 или DETR.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍13 5🎉2
В марте мы писали про наше исследование способности больших мультимодальных моделей определять возраст и пол человека по фото, а также сравнивали их с MiVOLOv2.
С тех пор, конечно, многое поменялось, и главное – вышел ChatGPT-4o. Модель сильно отличается от предыдущей 4Vision и поэтому было разумно ожидать изменения в результатах.
Недавно дошли руки это проверить, заодно обновили препринт.
TLDR:🌿
4о совершила огромный рывок вперёд в определении возраста и делает это даже лучше MiVOLOv2. Причём, неожиданно, самый большой скачок в задаче определения возраста без лица на фотографии, по изображению тела. А ещё метрики у 4o при работе без лиц и с ними заметно ближе, чем у других моделей. Видимо, новая GPT стала меньше завязываться на лица, а это ещё одно хорошее подкрепление нашей идеи из оригинальной статьи, что нужно использовать всю доступную информацию.
А вот определение пола, в случае изображений с лицами, практически никак не улучшилось и осталось на невысоком уровне, ниже открытой LLaVA-NeXT. Дело явно не в возможностях модели.
С тех пор, конечно, многое поменялось, и главное – вышел ChatGPT-4o. Модель сильно отличается от предыдущей 4Vision и поэтому было разумно ожидать изменения в результатах.
Недавно дошли руки это проверить, заодно обновили препринт.
TLDR:
4о совершила огромный рывок вперёд в определении возраста и делает это даже лучше MiVOLOv2. Причём, неожиданно, самый большой скачок в задаче определения возраста без лица на фотографии, по изображению тела. А ещё метрики у 4o при работе без лиц и с ними заметно ближе, чем у других моделей. Видимо, новая GPT стала меньше завязываться на лица, а это ещё одно хорошее подкрепление нашей идеи из оригинальной статьи, что нужно использовать всю доступную информацию.
А вот определение пола, в случае изображений с лицами, практически никак не улучшилось и осталось на невысоком уровне, ниже открытой LLaVA-NeXT. Дело явно не в возможностях модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7
Друзья, уже совсем скоро мы опубликуем нашу новую исследовательскую работу, и чтобы вы подошли к ней во всеоружии, мы подготовили для вас статью на Хабре “DETR: Бесконечная история” 🚀
Мы часто слышим о развитии YOLO, но как насчёт DETR? Несмотря на меньшее внимание, архитектура совершила настоящую революцию в мире детекторов. В нашей статье мы разобрали путь развития DETR от оригинальной версии до современных моделей, таких как DINO- или CO-DETR.
Если вы впервые слышите о DETR или хотите сначала освежить свои знания, то перед прочтением статьи можно ознакомиться с этими видео-разборами - тык, тык.
📚 Читать статью: тык
Мы часто слышим о развитии YOLO, но как насчёт DETR? Несмотря на меньшее внимание, архитектура совершила настоящую революцию в мире детекторов. В нашей статье мы разобрали путь развития DETR от оригинальной версии до современных моделей, таких как DINO- или CO-DETR.
Если вы впервые слышите о DETR или хотите сначала освежить свои знания, то перед прочтением статьи можно ознакомиться с этими видео-разборами - тык, тык.
📚 Читать статью: тык
Хабр
DETR: Бесконечная история
Введение Всем привет, с вами команда Layer ! Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных...
🔥10 6👍5
У нас отличные новости! 🔥🔥🔥
Сегодня была опубликована наша исследовательская работа: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней мы предлагаем новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей. Это было захватывающее приключение, полное вызовов и открытий, и теперь мы рады поделиться результатами с вами!🥱 🌿
Основные моменты нашей работы:
1. Saliency Guided Cross-Attention модуль
В рамках исследования мы разработали уникальный модуль, который эффективно объединяет признаки видеоклипов и пользовательских запросов, обеспечивая невероятное качество сопоставления⏹
2. Гибридный детектор
Для эффективного решения задачи поиска моментов мы объединили гибкость современных фундаментальных видео энкодеров и точность гибридных DETR-like детекторов🧑🎓
3. Фреймворк для генерации претрейн датасета
Во время нашего исследования мы столкнулись с важной проблемой: существенный дефицит данных для обучения модели. Поэтому мы разработали собственный метод автоматической разметки, и модель, обученная на полученных данных, показала результаты близкие к SOTA в zero-shot режиме, что стало для нас особым поводом для гордости😎
Наша модель SG-DETR демонстрирует SOTA метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п.🌿 🌿 🌿
Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро опубликуем в открытый доступ код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚
Сегодня была опубликована наша исследовательская работа: "Saliency-Guided DETR for Moment Retrieval and Highlight Detection". В ней мы предлагаем новый способ поиска ключевых моментов в видео релевантных текстовым запросам пользователей. Это было захватывающее приключение, полное вызовов и открытий, и теперь мы рады поделиться результатами с вами!
Основные моменты нашей работы:
1. Saliency Guided Cross-Attention модуль
В рамках исследования мы разработали уникальный модуль, который эффективно объединяет признаки видеоклипов и пользовательских запросов, обеспечивая невероятное качество сопоставления
2. Гибридный детектор
Для эффективного решения задачи поиска моментов мы объединили гибкость современных фундаментальных видео энкодеров и точность гибридных DETR-like детекторов
3. Фреймворк для генерации претрейн датасета
Во время нашего исследования мы столкнулись с важной проблемой: существенный дефицит данных для обучения модели. Поэтому мы разработали собственный метод автоматической разметки, и модель, обученная на полученных данных, показала результаты близкие к SOTA в zero-shot режиме, что стало для нас особым поводом для гордости
Наша модель SG-DETR демонстрирует SOTA метрики на всех ключевых бенчмарках: Charades-STA, TACoS, TVSUM и YouTube Highlights. Особо впечатляющим стал результат на главном бенчмарке QVHighlights, где модель опередила предыдущее решение с невероятным гэпом в 7.44 п.п.
Препринт версия работы доступна на arXiv и PwC. И уже совсем скоро опубликуем в открытый доступ код, веса модели и наш датасет. Будем рады вашим отзывам и комментариям! 📚
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥12🔥3🤔3❤1👎1
Меня всегда очень радует, если технологии служат какой-то очень конкретной, доброй и общественно полезной цели.
Будучи студентом, я увлекался биоинформатикой (и даже в итоге диплом писал по этой теме) не в последнюю очередь из-за этого. Меня мотивировала наука, которая не просто изучает устройство мира, но ещё и находится на самом переднем краю борьбы с худшими болезнями.
Поэтому мне особенно приятно рассказать, что наши коллеги из команды RnD CV занимаются одной из таких общественно важных тем – применяют технологии машинного обучения для распознавания русского жестового языка. Ребята в этой области уже достаточно давно и сделали в неё немалый вклад. А в своей свежей статье на Хабре поведали о Bukva – первом полноценном видеонаборе данных для распознавания дактильной азбуки🔥
В процессе его создания ребята использовали MiVOLOv2!
Будучи студентом, я увлекался биоинформатикой (и даже в итоге диплом писал по этой теме) не в последнюю очередь из-за этого. Меня мотивировала наука, которая не просто изучает устройство мира, но ещё и находится на самом переднем краю борьбы с худшими болезнями.
Поэтому мне особенно приятно рассказать, что наши коллеги из команды RnD CV занимаются одной из таких общественно важных тем – применяют технологии машинного обучения для распознавания русского жестового языка. Ребята в этой области уже достаточно давно и сделали в неё немалый вклад. А в своей свежей статье на Хабре поведали о Bukva – первом полноценном видеонаборе данных для распознавания дактильной азбуки
В процессе его создания ребята использовали MiVOLOv2!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥5🤯1
Мы тут ведём очень активную работу по развитию GigaCheck, и скоро надеемся много интересного рассказать.
А пока, уже по традиции, у нас есть для вас прогревочная статья.
Если вдруг вы пропустили весь движ (или просто не успели вникнуть) с Mamba – очень интересной альтернативой трансформерам, то вам должен показаться увлекательным наш обзор:
https://habr.com/ru/companies/sberdevices/articles/855080/
А пока, уже по традиции, у нас есть для вас прогревочная статья.
Если вдруг вы пропустили весь движ (или просто не успели вникнуть) с Mamba – очень интересной альтернативой трансформерам, то вам должен показаться увлекательным наш обзор:
https://habr.com/ru/companies/sberdevices/articles/855080/
Хабр
State Space Models. Mamba
Привет, Habr! Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры . Они произвели настоящий фурор и стали основой для самых известных...
🔥13❤4 4👍1
В ходе работы над нашей статьей по детекции сгенерированных текстов (GigaCheck), сравнивая наш метод с уже существующими, мы также решили замерить подход авторов статьи Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts 2023 года, так как в ней заявляется SOTA качество.
Кстати, среди авторов статьи Техножрица. Если вдруг не подписаны на её канал, то вот пост по этой работе, ну и там много других интересных!
Сравниваемые методы определяют, является ли весь текст написанным человеком или сгенерированным LLM. Подход авторов использует методы топологического анализа данных (TDA) и с помощью подсчёта внутренней размерности текста (на основе эмбеддингов, полученных из языковой модели RoBERTa) с заранее заданным трешхолдом классифицирует текст.
Наш метод основан на использовании LLM (на днях опубликуем препринт со всеми деталями).
Мы сравнили подходы на пяти датасетах (см. пикчу ниже постом).
Для каждого трешхолд для порогового классификатора был выбран на основе лучшего accuracy на валидационном сете. К сожалению, нам не удалось воспроизвести результаты авторов и точность подхода, основанного на PHD (Persistence Homology Dimension), получилось около рандомной.
Можно предположить, что подсчитанная способом авторов внутренняя размерность человеческих и сгенерированных текстов не является универсальным признаком для классификации. До конца причина такого качества пока не ясна, возможно авторы работы ещё помогут нам разобраться (мы с ними связались). Тем не менее, подход является важным академическим шагом на пути к решению задачи сгенерированного контента.
На самом деле, задача детекции сгенерированных текстов крайне сложная и очень чувствительная к данным, поэтому в нашей статье мы постарались провести замеры на большом количестве самых разнообразных текстов (полученных из разных доменов, разными генераторами), чтобы получить репрезентативные результаты.
В общем, stay tuned — совсем скоро мы раскроем все детали о собственном точном и устойчивом решении, пригодном не только для задачи бинарной классификации, но и для интервального анализа смешанных текстов, написанных совместно человеком и генеративной моделью.
Кстати, среди авторов статьи Техножрица. Если вдруг не подписаны на её канал, то вот пост по этой работе, ну и там много других интересных!
Сравниваемые методы определяют, является ли весь текст написанным человеком или сгенерированным LLM. Подход авторов использует методы топологического анализа данных (TDA) и с помощью подсчёта внутренней размерности текста (на основе эмбеддингов, полученных из языковой модели RoBERTa) с заранее заданным трешхолдом классифицирует текст.
Наш метод основан на использовании LLM (на днях опубликуем препринт со всеми деталями).
Мы сравнили подходы на пяти датасетах (см. пикчу ниже постом).
Для каждого трешхолд для порогового классификатора был выбран на основе лучшего accuracy на валидационном сете. К сожалению, нам не удалось воспроизвести результаты авторов и точность подхода, основанного на PHD (Persistence Homology Dimension), получилось около рандомной.
Можно предположить, что подсчитанная способом авторов внутренняя размерность человеческих и сгенерированных текстов не является универсальным признаком для классификации. До конца причина такого качества пока не ясна, возможно авторы работы ещё помогут нам разобраться (мы с ними связались). Тем не менее, подход является важным академическим шагом на пути к решению задачи сгенерированного контента.
На самом деле, задача детекции сгенерированных текстов крайне сложная и очень чувствительная к данным, поэтому в нашей статье мы постарались провести замеры на большом количестве самых разнообразных текстов (полученных из разных доменов, разными генераторами), чтобы получить репрезентативные результаты.
В общем, stay tuned — совсем скоро мы раскроем все детали о собственном точном и устойчивом решении, пригодном не только для задачи бинарной классификации, но и для интервального анализа смешанных текстов, написанных совместно человеком и генеративной моделью.
🤯10❤6🔥5 2👍1
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.
TL;DR Вынесли вообще всех.
Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖
🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.
🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3
✅ Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️
📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.
CV-шники идут в NLP 😎
Мы надеемся, что наш метод вдохновит будущих исследователей! 📈
📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.
TL;DR Вынесли вообще всех.
Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖
🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.
🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3
✅ Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️
📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.
CV-шники идут в NLP 😎
Мы надеемся, что наш метод вдохновит будущих исследователей! 📈
📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут
🔥18🎉6🏆5 2❤1🙏1
Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на AIJ и рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу.
Представляем Malvina.Multimodal Artificial Language VIsion Neural Assistant.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.
Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.
Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.
Так что, задача очень сложная и амбициозная, ждите релиза!
Представляем Malvina.
Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.
Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.
Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.
Так что, задача очень сложная и амбициозная, ждите релиза!
🔥31❤6😁2🤯2👍1