The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
Возвращаем нашу рубрику с обзорами.

Интересная работа – VisionZip: Longer is Better but Not Necessary in Vision Language Models. Если по сути, то рассматривается старая, как мир, идея, что изображения, в отличие от текста, достаточно неплотный по семантике формат и с этим что-то можно сделать.

Вся область компьютерного зрения всеми возможными способами танцует вокруг этой проблемы. Но, в контексте больших мультимодальных моделей она приобретает новые краски, поскольку, как известно, с количеством токенов квадратично растёт и сложность.
А в последних моделях, с учётом всех трюков, количество визуальных токенов уже совсем неслабое. Например, в LLaVA-NeXT изображение 672х672 будет преобразовано в 2880 токенов.

Авторы считают, что так жить нельзя и предлагают следующее решение: изображение прогоняется через визуальный энкодер на трансформерной архитектуре, после чего извлекаются значения внимания и на этой основе принимается решение, какие токены очень важны, а какие чуть менее и вообще просто кодируют контекст. При этом, по-разному производится работа с FE, где есть CLS-токен и где нет. В первом случае, считается внимание по отношению к CLS-токену (т.к. в нём глобальная информация), в других же случаях просто усредняется внимание по отношению ко всем остальным токенам по оси количества голов.

Критически важные токены берутся без изменений, а остальные агрегируются (через усреднение, опять же) по принципу похожих. Дальнейший процесс как обычно, см. схему.
Метод можно использовать прямо как есть, без файнтюна, но будет чуть хуже - пространства могут не совпадать. Но даже так неплохо.
А с трейном так и совсем хорошо. У авторов вышло, что, порезав 77.8% токенов в LLaVA-NeXT, можно сохранить 98.9% оригинальной точности. Рост скорости очевиден – 13B модель начинает работать быстрее 7B. И при этом, всё ещё чуть качественнее.

Разгорячившись, ребята попробовали с наскока залезть и в видео. Вышло, что Video-LLaVA на 136 токенах (вместо 2048) сохраняет 93.2% оригинального качества в варианте без тренировки.

Тут, конечно, стоит быть осторожными с выводами. Результаты выглядят впечатляюще, и статья получила заметное внимание, но стоит помнить о некотором кризисе с замером качества у моделей общего назначения. Может оказаться, что эти несколько процентов убивают весь перформанс в реальных задачах.
Но, можно пощупать самостоятельно в демке, пока она жива. С наскока кажется, что вроде бы как минимум работоспособно, ну и там есть интересная визуализация.
🔥14👍3
По каким-то причинам, известная фотография великого Николы Теслы особенно хорошо работает в нашем пайплайне редактирования изображений :)

Не иначе как, фото заряжено на науку.
🔥10😁332👍1
A Noise is Worth Diffusion Guidance

Довольно любопытная работа.
В диффузионных моделях применяется механизм под названием Classifier Free Guidance (есть и другие вариации, но CFG — де-факто стандарт). Без него сгенерированные на основе текстового промпта изображения выглядят очень печально (см. картинки 1 и 4), потому что тогда модель не получает достаточный сигнал от условия и искажает структуру.

С CFG диффузию прогоняют два раза: один раз с условием, другой раз без, разница взвешенно добавляется к безусловному выводу.
Применение метода даёт невероятное улучшение качества, но проблема с ростом вычислительных затрат, которые и без того находятся за пределами добра и зла, всех очень беспокоит.

Есть различные способы от CFG избавиться, например, при обучении с дистилляцией (учитель - ученик), можно сразу обучать на результате с CFG. Так сделали в открытой версии нашумевшей модели FLUX.1-schnell.
Работает хорошо, но это дорого и больно.

В очередной попытке вопрос решить, авторы исходят из своего наблюдения: если инвертировать качественное изображение в изначальный шум (при помощи DDIM или других методов с детерминированным сэмплированием), то, затем, из этого шума получается хорошее изображение уже без всякого гайденса.

Выходит, что нужен просто правильный мёд шум. Его правильность, кстати, тоже исследуют и приходят к выводу, что разница с гауссовским, в общем-то, невелика и сводится к небольшим низкочастотным элементам.
Имея этот расклад, остаётся придумать, как отобразить одно пространство в другое.

Для этого используется всё та же диффузионная модель. Внимательный читатель может спросить — опять прогонять ещё одну модель? А мы не сделали круг?
Не сделали, поскольку используется LoRA с рангом 128 и оптимизируется она напрямую на конечных изображениях (оптимизация на шуме даёт результат хуже) и работает на этапе инференса в один шаг.

Результаты метода, названного Refined Noise, получаются, если верить статье и черри-пикам, хорошие, при этом не страдает ни разнообразие, ни способность модели к генерализации.

Более того, при Side-By-Side сравнении с CFG моделью, Refined Noise немного даже выигрывает.
По метрикам на бенчмарках чуть пониже оригинала, но сравниваются уже с пайплайном с СFG + PAG (Perturbed-Attention Guidance, ещё один гайденс для улучшения структуры). Т.е. разница в вычислительных затратах между методами уже не в 2, а в 3 раза.

К сожалению, в статье используется StableDiffusion 2.1, было бы интересно посмотреть на результат на более современных моделях.

Есть ещё один малозаметный нюанс. И для генерации обучающих данных и при сравнении всех моделей использовались CFG + PAG. Но, если верить подписям, в SBS, внезапно, сравнение проводилось против просто CFG модели, что противоречит собственной же аргументации:
We observe that some proportion of images generated with CFG [13] in Stable Diffusion 2.1 [36] exhibit low quality, often appearing blurry or displaying distorted facial features, eyes, and noses

To enhance the quality of samples, we apply PAG along with CFG, as PAG has been shown to reduce blurriness and improve anatomical structure effectively


Тем не менее, впечатляет гибкость метода и что им можно заменять сразу несколько гайденсов.
Код обещают выложить.
🔥8521
В недавнем исследовании про таргетированный AI-фишинг авторы собирали информацию в интернете о человеке, с помощью GPT-4o и Claude 3.5 Sonnet составляли его профиль, на основе которого генерировали персонализированные фишинговые сообщения. Что интересно, в 88% случаев профили оказывались точными и полезными, а click-rate на ссылки в автоматически сгенерированных письмах составил 54%. Это значение совпало с click-rate для писем, написанных человеком-экспертом. В аналогичных же исследованиях прошлого года, чтобы достичь уровня экспертов, моделям требовалось участие человека.

Результаты лишний раз подчеркивают необходимость создания и улучшения детекторов сгенерированного контента.

LLM модели совершенствуют свои «‎обманные способности»‎, а мы продолжаем совершенствовать нашу модель детектирования для русскоязычных текстов GigaCheck. Обновленная версия уже доступна в нашем Telegram-боте. Кроме того, мы добавили нашу новую модель (находится на стадии бета-тестирования), которая умеет определять в co-written текстах фрагменты текста, созданные LLM. Вы можете легко переключать модели через команду /model.
Напомним, что используемый нами подход для детекции интервалов основан на архитектуре DN-DAB-DETR, подробнее можно почитать в опубликованной нами статье, про которую мы писали в этом посте.

Заходите в бот, тестируйте, и не дайте злоумышленникам вас обмануть! 😊
11🔥9🏆53
О нас, совершенно неожиданно, написала редакция Хабра. Им, как оказалось, понравилось пользоваться GigaCheck:

Статьи, написанные с помощью генеративных моделей ИИ не появлялись в песочнице на удивление долго: первые материалы, вызывающие подозрение, появились летом 2024 года. Их было видно невооружённым глазом: специфический стиль, «машинозвучание», как у машинных переводов (проверяли так: читаешь вслух и звучишь, как робот с обзвона), списки, обилие терминов, ну и ещё пара секретных критериев (они до сих пор работают). Но нейронки прокачивались, за ними прокачивались и тексты. Их всё равно можно распознать глазами, особенно, когда у тебя колоссальная начитанность — все те самые десятки тысяч статей просматриваются и отклоняются вручную, но нам на помощь пришёл GigaCheck от Сбера — пока это самый классный и совершенный инструмент определения нейросетевого текста (работает даже на отдельные предложения в тексте). За полгода работы не наблюдала ни одного ложного результата. Мы прогоняем не каждый текст, а только те, которые вызывают подозрение — это помогает не слепо доверять технологии, но также сохранять насмотренность. Впрочем, до объёмов, требующих автоматизации, осталось минус три дня 🙂


Большое им спасибо за такой отзыв!
Оценка от бизнеса — самая надёжная метрика.
🏆21🔥13❤‍🔥9👍3🦄3
Наши коллеги из AIRI и SberAI выпустили любопытную open-source модель GHOST 2.0 для необычной задачи — переноса головы. Несмотря на существование спроса, ближайший аналог — модель HeSer, была выпущена в 2022, т.е. достаточно давно по меркам области.

На изображении примеры работы, а в демке можно попробовать самостоятельно.
Ребята провели большое исследование, поэтому рекомендую ознакомиться с тех. репортом.

📖 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
🌿 Project page: https://ai-forever.github.io/ghost-2.0/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥8💯4
Поздравляем вас, дорогие подписчицы, с Международным женским днём!🌷

И как раз к случаю, у нас есть такая замечательная картинка — одновременно милая и мемная.

Получилась она совершенно случайно. Пару дней назад, в процессе дебага Мальвины, мы накидали какие-то не сильно осознанные промпты для редактирования, в числе которых был «добавь на цветок кота». Кто ж знал, что получится так хорошо 😅

В комментариях оригинал + ещё пара забавных вариантов.
❤‍🔥12🎉4
🔥2
ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching, ICLR 2025

Ускорение диффузионных трансформеров в 2 раза! Есть код!

Для генерации одной картинки нужно десятки раз прогнать тяжеловесную нейросеть. Естественно, этот процесс хочется ускорить. Можно, например, уменьшить число шагов генерации, как сделали в https://news.1rj.ru/str/layercv/122 с помощью дистилляции, а можно ускорить каждый шаг генерации.

Авторы решают задачу вторым способом. В диффузионных трансформерах входная информация представлена в виде токенов:
- и латентное или пиксельное представление исходного шума,
- и текстовый запрос,
- и изображение для обуславливания: например, карта глубин, семантическая сегментационной карты в задаче генерации изображения заданной структуры; фотография объекта или лица человека для генерации их в описанной сцене; исходной фотографии для её редактирования.

Чтобы не вычислять новые значения каждого токена в каждом блоке трансформера и на каждом шаге диффузии, авторы переиспользуют часть посчитанных значений.
Токены для кэширования выбирают по нескольким критериям:

1. Насколько токен влияет на другие токены. Чем сильнее влияет, тем важнее вычислить точное его значение, а не использовать заранее закэшированное.
2. Насколько токен зависим от входного сигнала. Чем сильнее он меняется от изменения входного сигнала, тем он важнее.
3. Когда токен был закеширован. Если давно (и с точки зрения слоёв трансформера, и с точки зрения шагов диффузии), то его значение лучше вычислить заново.
4. Лучший ли он кандидат среди в своём окружении. Среди соседних токенов выбирают тот, который по предыдущим трём критериям лучше других. Это нужно, чтобы закэшированные токены были равномерно распределены по всему изображению, иначе качество генерации ухудшится.

Влияние на другие токены смотрят в Self-Attention блоках, а зависимость от входного сигнала в Cross-Attention блоках. В экспериментах с PixArt-alpha это возможно, а с более современными моделями (Stable Diffusion 3, Flux.1) нужно будет придумывать что-то другое: там обуславливание делается уже через MM-DiT блоки без Cross Attention.
В новой версии статьи авторы добавили и результаты с Flux.1 (dev и schnell версиями), но без пояснений, видимо просто без второго критерия.

Качество и скорость замеряли на text-to-image генерации моделью PixArt-alpha, text-to-video OpenSora и генерацию изображения по названию категории DiT-XL/2.

На PixArt-alpha, OpenSora, DiT-XL/2 ускорение в ~2 раза с небольшим ухудшением качества генерации, на Flux.1 - в 1.5 раза.
🔥9🤔33
👍6
🚀 GPT-4o, Gemini, Grok — вряд ли вы могли пропустить хайп этих моделей в редактировании изображений!

Пока мы усердно работали над умным редактором изображений Malvina, многие серьезные игроки уже поняли актуальность и перспективность задачи, и начали раскатывать в своих моделях функции эдитинга картинок.
Мы же выходим на финишную прямую и (скажем по секрету) нам есть чем удивить, так что ждите скорых новостей🔥!

А пока, подготовили для вас первую статью из целого цикла, где мы пройдём полный путь задачи нейросетевого редактирования изображений: от «а что, если просто перегенерить с фиксированным random seed?» до огромных мультимодальных моделей!

В первой статье рассмотрим тривиальные попытки редактирования (фиксирование random seed, инпейнтинг, зашумление-расшумление), разберем методы DDIM Inversion и Null-Text Inversion.

Расписали всё подробно и с красивыми картинками, но в то же время максимально понятно, без сложных формул!

[статья]

P.S. В статью также включили лаконичный ликбез по всей необходимой теории (диффузия, attention, CFG, ...), так что бояться нечего!
15🥰55