The Layer – Telegram
The Layer
889 subscribers
113 photos
10 videos
4 files
84 links
Канал команды компьютерного зрения Layer, R&D Department, SberDevices
Download Telegram
🔥2
ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching, ICLR 2025

Ускорение диффузионных трансформеров в 2 раза! Есть код!

Для генерации одной картинки нужно десятки раз прогнать тяжеловесную нейросеть. Естественно, этот процесс хочется ускорить. Можно, например, уменьшить число шагов генерации, как сделали в https://news.1rj.ru/str/layercv/122 с помощью дистилляции, а можно ускорить каждый шаг генерации.

Авторы решают задачу вторым способом. В диффузионных трансформерах входная информация представлена в виде токенов:
- и латентное или пиксельное представление исходного шума,
- и текстовый запрос,
- и изображение для обуславливания: например, карта глубин, семантическая сегментационной карты в задаче генерации изображения заданной структуры; фотография объекта или лица человека для генерации их в описанной сцене; исходной фотографии для её редактирования.

Чтобы не вычислять новые значения каждого токена в каждом блоке трансформера и на каждом шаге диффузии, авторы переиспользуют часть посчитанных значений.
Токены для кэширования выбирают по нескольким критериям:

1. Насколько токен влияет на другие токены. Чем сильнее влияет, тем важнее вычислить точное его значение, а не использовать заранее закэшированное.
2. Насколько токен зависим от входного сигнала. Чем сильнее он меняется от изменения входного сигнала, тем он важнее.
3. Когда токен был закеширован. Если давно (и с точки зрения слоёв трансформера, и с точки зрения шагов диффузии), то его значение лучше вычислить заново.
4. Лучший ли он кандидат среди в своём окружении. Среди соседних токенов выбирают тот, который по предыдущим трём критериям лучше других. Это нужно, чтобы закэшированные токены были равномерно распределены по всему изображению, иначе качество генерации ухудшится.

Влияние на другие токены смотрят в Self-Attention блоках, а зависимость от входного сигнала в Cross-Attention блоках. В экспериментах с PixArt-alpha это возможно, а с более современными моделями (Stable Diffusion 3, Flux.1) нужно будет придумывать что-то другое: там обуславливание делается уже через MM-DiT блоки без Cross Attention.
В новой версии статьи авторы добавили и результаты с Flux.1 (dev и schnell версиями), но без пояснений, видимо просто без второго критерия.

Качество и скорость замеряли на text-to-image генерации моделью PixArt-alpha, text-to-video OpenSora и генерацию изображения по названию категории DiT-XL/2.

На PixArt-alpha, OpenSora, DiT-XL/2 ускорение в ~2 раза с небольшим ухудшением качества генерации, на Flux.1 - в 1.5 раза.
🔥9🤔33
👍6
🚀 GPT-4o, Gemini, Grok — вряд ли вы могли пропустить хайп этих моделей в редактировании изображений!

Пока мы усердно работали над умным редактором изображений Malvina, многие серьезные игроки уже поняли актуальность и перспективность задачи, и начали раскатывать в своих моделях функции эдитинга картинок.
Мы же выходим на финишную прямую и (скажем по секрету) нам есть чем удивить, так что ждите скорых новостей🔥!

А пока, подготовили для вас первую статью из целого цикла, где мы пройдём полный путь задачи нейросетевого редактирования изображений: от «а что, если просто перегенерить с фиксированным random seed?» до огромных мультимодальных моделей!

В первой статье рассмотрим тривиальные попытки редактирования (фиксирование random seed, инпейнтинг, зашумление-расшумление), разберем методы DDIM Inversion и Null-Text Inversion.

Расписали всё подробно и с красивыми картинками, но в то же время максимально понятно, без сложных формул!

[статья]

P.S. В статью также включили лаконичный ликбез по всей необходимой теории (диффузия, attention, CFG, ...), так что бояться нечего!
15🥰55
GigaCheck — топ-1 решение в соревновании по определению авторства текстов на AINL 2025 🔥

Честно? Мы вообще не планировали. Просто увидели в одном паблике анонс соревнования по определению авторства текстов на AINL — это крупнейшая восточноевропейская конференция по AI (кстати, у конференции есть свой канал!). Подумали: «А давай попробуем?».

Взяли за основу наш подход GigaCheck, обучили модель с нуля на данных соревнования, немного адаптировав под задачу… и, кажется, не зря 😅

На выходных подвели итоги — первое место! 🥇

Задача была нетривиальная: не просто определить, написан текст человеком или ИИ, но и точно указать, какой именно моделью он был сгенерирован (GPT-4 Turbo, Gemma 2-27B, LLaMA 3.3-70B и две другие модели).

Мы усилили GigaCheck, добавив дополнительную классификационную голову — и получили отличные результаты!

На публичных тестовых данных, где в том числе были тексты, сгенерированные неизвестной моделью, не участвовавшей в тренировке, GigaCheck показал точность в 91% 🚀

На приватном тестовом сете, включавшем тексты ещё одной неизвестной модели и тексты из двух новых доменов, которых GigaCheck также ранее не видел, точность достигла уверенных 86% 🏆

Наш результат оказался лучшим среди всех участников соревнования 👏

Это сильное подтверждение робастности и высокой способности GigaCheck к обобщению — даже в условиях особенно сложных out-of-domain и out-of-distribution задач!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3098🎉4👏3👍2❤‍🔥1
Привет!
Сегодня для нас очень важный день, поскольку мы подходим к большой и важной вехе на нашем рабочем и жизненном пути. Жизненном потому, что это давно вышло за рамки исполнения обязанностей и стало личным.

Сегодня мы представляем вам проект с рабочим названием Malvina. Технологию, с чьей помощью GigaChat теперь умеет редактировать любые изображения просто по обычному текстовому промпту на любом языке.

Не хочется распинаться о том, какая Malvina крутая модель. Она способна говорить сама за себя.

Но, всё-таки, будет одно громкое заявление:
На основании наших технических метрик, а так же нескольких SBS-сравнений независимыми разметчиками, Malvina обходит на основных задачах по качеству Gemini и Grok.

Мы не говорим здесь о новом ChatGPT- (в этом контексте имеется ввиду новая возможность для AR-генерации изображений) потому, что модели невозможно напрямую адекватно сравнить. Мы много рассказали об этом в статье на Хабре, поэтому тут просто кратко повторим: ChatGPT- — совершенно потрясающая, стоящая на переднем крае науки, модель. Но на данный момент она не выполняет попиксельное редактирование. И пусть результат часто близок к этому (хотя ещё чаще — нет), всё-таки это сильно разные задачи с разным потолком качества.

Gemini же, на удивление, вполне хорошо справляется с именно нашей задачей, поэтому мы больше ориентируемся на неё.
На всякий случай, мы оставили SBS вот тут.

Но вернёмся к к теме. Поскольку у Malvina под капотом одновременно и сильная VLM модель и качественная диффузионка, она умеет очень много всего классного.

В том числе, делает такие штуки, за которые люди часто хотят денег: удаляет объекты по любому текстовому описанию, восстанавливает и раскрашивает старые фотографии, меняет внешность, удаляет и добавляет бороды, меняет цвет глаз, причёски, одежду, аксессуары, удаляет фон для фотографии на паспорт, перекрашивает что заблагорассудится пользователю, меняет материалы объектов, она даже может восстановить ржавый автомобиль или прибраться за вас в комнате (ну, пока только на фотографии).

И ещё очень много всего, мы даже не всё сами знаем. Кажется этот случай, когда пользователи могут исследовать возможности глубже, чем сами создатели. Главное — следовать духу экспериментаторства и пробовать несколько раз подряд, проверять разные подходы к промпту.

Есть и то, чего модель честно не умеет, просто потому, что пока мы над этим не работали в достаточной мере: ей плохо даётся смена поз или вращение объектов, она не умеет добавлять текст, не всегда справляется с сильными структурными изменениями. Мы не заканчиваем разработку этим релизом, скорее только начинаем, так что в конечном счёте мы решим и эти проблемы.

А сейчас, мы хотим показать, чего уже достигли, и приглашаем вас в GigaChat попробовать самостоятельно!
🔥4417👏13👍62🎉1
Небольшая подборка черри-пиков от нас 🦾

Поделитесь, пожалуйста, вашими результатами в комментариях 👇
🔥16👍8😍5😱1
Вакансия: Deep Learning Engineer, ASR 🎧


Ищем инженера-исследователя в ML команду распознавания речи (ASR)

Мы развиваем технологии распознавания речи во всей экосистеме Сбера: от умных устройств и видео-конференций до телефонного канала и B2B-продаж

Задачи
Недавно мы выложили в open-source SSL модель GigaAM (GitHub, arXiv), а ее улучшенная версия GigaAM Max уже доступна в @smartspeech_sber_bot и умных устройствах.
Следующая амбициозная цель — донести то же качество до всех поверхностей: от высоконагруженных кол-центров до компактных CPU-моделей.
Поэтому основными задачами будут исследование методов онлайн-дистилляции, обучение потоковых моделей, ансамблирование моделей в продакшене, эксперименты с новыми архитектурами и многое другое!

Требования
- python: модульный код, ООП, concurrency, pep, тесты
- хорошее знание алгоритмов и структур данных
- понимание методов оценки качества ML-систем
- глубокие теоретические знания в DL + опыт отладки/обучения (крайне желателен multi-gpu)
- знание современных подходов в NLP/Speech
- pytorch + способность разобраться во фреймворках (lightning, NeMo, fairseq, huggingface)
- docker: сборка образов для обучения/тестирования моделей
- linux, git

Будет плюсом
- знание C++
- опыт оптимизации нейросетей для инференса
- опыт работы с crowdsource-разметкой
- базовое знание цифровой обработки сигналов

Условия
- конкурентная зарплата
- еженедельные встречи с разборами статей
- возможность преподавать на курсах по речевым технологиям (МФТИ, МГУ и другие площадки)
- возможность менторить стажеров в исследовательских проектах
- сильный отдел специалистов (от низкоуровневых алгоритмов улучшения качества звука до оптимизации инференса на CUDA). Выпускники ШАД, МФТИ, ВШЭ, Сколтех, МГУ, ex-Yandex
- молодая дружная команда: собираемся в барах, на завтраках и других активностях
- гибкий график работы, удаленка по всей России
- ДМС, зал в офисе, участие и выступления на конференциях

Вопросы и резюме можно присылать на почту kvprolomova@sber.ru
👍92🔥1