Поздравляем вас, дорогие подписчицы, с Международным женским днём!🌷
И как раз к случаю, у нас есть такая замечательная картинка — одновременно милая и мемная.
Получилась она совершенно случайно. Пару дней назад, в процессе дебага Мальвины, мы накидали какие-то не сильно осознанные промпты для редактирования, в числе которых был «добавь на цветок кота». Кто ж знал, что получится так хорошо 😅
В комментариях оригинал + ещё пара забавных вариантов.
И как раз к случаю, у нас есть такая замечательная картинка — одновременно милая и мемная.
Получилась она совершенно случайно. Пару дней назад, в процессе дебага Мальвины, мы накидали какие-то не сильно осознанные промпты для редактирования, в числе которых был «добавь на цветок кота». Кто ж знал, что получится так хорошо 😅
В комментариях оригинал + ещё пара забавных вариантов.
❤🔥12🎉4
ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching, ICLR 2025
Ускорение диффузионных трансформеров в 2 раза! Есть код!
Для генерации одной картинки нужно десятки раз прогнать тяжеловесную нейросеть. Естественно, этот процесс хочется ускорить. Можно, например, уменьшить число шагов генерации, как сделали в https://news.1rj.ru/str/layercv/122 с помощью дистилляции, а можно ускорить каждый шаг генерации.
Авторы решают задачу вторым способом. В диффузионных трансформерах входная информация представлена в виде токенов:
- и латентное или пиксельное представление исходного шума,
- и текстовый запрос,
- и изображение для обуславливания: например, карта глубин, семантическая сегментационной карты в задаче генерации изображения заданной структуры; фотография объекта или лица человека для генерации их в описанной сцене; исходной фотографии для её редактирования.
Чтобы не вычислять новые значения каждого токена в каждом блоке трансформера и на каждом шаге диффузии, авторы переиспользуют часть посчитанных значений.
Токены для кэширования выбирают по нескольким критериям:
1. Насколько токен влияет на другие токены. Чем сильнее влияет, тем важнее вычислить точное его значение, а не использовать заранее закэшированное.
2. Насколько токен зависим от входного сигнала. Чем сильнее он меняется от изменения входного сигнала, тем он важнее.
3. Когда токен был закеширован. Если давно (и с точки зрения слоёв трансформера, и с точки зрения шагов диффузии), то его значение лучше вычислить заново.
4. Лучший ли он кандидат среди в своём окружении. Среди соседних токенов выбирают тот, который по предыдущим трём критериям лучше других. Это нужно, чтобы закэшированные токены были равномерно распределены по всему изображению, иначе качество генерации ухудшится.
Влияние на другие токены смотрят в Self-Attention блоках, а зависимость от входного сигнала в Cross-Attention блоках. В экспериментах с PixArt-alpha это возможно, а с более современными моделями (Stable Diffusion 3, Flux.1) нужно будет придумывать что-то другое: там обуславливание делается уже через MM-DiT блоки без Cross Attention.
В новой версии статьи авторы добавили и результаты с Flux.1 (dev и schnell версиями), но без пояснений, видимо просто без второго критерия.
Качество и скорость замеряли на text-to-image генерации моделью PixArt-alpha, text-to-video OpenSora и генерацию изображения по названию категории DiT-XL/2.
На PixArt-alpha, OpenSora, DiT-XL/2 ускорение в ~2 раза с небольшим ухудшением качества генерации, на Flux.1 - в 1.5 раза.
Ускорение диффузионных трансформеров в 2 раза! Есть код!
Для генерации одной картинки нужно десятки раз прогнать тяжеловесную нейросеть. Естественно, этот процесс хочется ускорить. Можно, например, уменьшить число шагов генерации, как сделали в https://news.1rj.ru/str/layercv/122 с помощью дистилляции, а можно ускорить каждый шаг генерации.
Авторы решают задачу вторым способом. В диффузионных трансформерах входная информация представлена в виде токенов:
- и латентное или пиксельное представление исходного шума,
- и текстовый запрос,
- и изображение для обуславливания: например, карта глубин, семантическая сегментационной карты в задаче генерации изображения заданной структуры; фотография объекта или лица человека для генерации их в описанной сцене; исходной фотографии для её редактирования.
Чтобы не вычислять новые значения каждого токена в каждом блоке трансформера и на каждом шаге диффузии, авторы переиспользуют часть посчитанных значений.
Токены для кэширования выбирают по нескольким критериям:
1. Насколько токен влияет на другие токены. Чем сильнее влияет, тем важнее вычислить точное его значение, а не использовать заранее закэшированное.
2. Насколько токен зависим от входного сигнала. Чем сильнее он меняется от изменения входного сигнала, тем он важнее.
3. Когда токен был закеширован. Если давно (и с точки зрения слоёв трансформера, и с точки зрения шагов диффузии), то его значение лучше вычислить заново.
4. Лучший ли он кандидат среди в своём окружении. Среди соседних токенов выбирают тот, который по предыдущим трём критериям лучше других. Это нужно, чтобы закэшированные токены были равномерно распределены по всему изображению, иначе качество генерации ухудшится.
Влияние на другие токены смотрят в Self-Attention блоках, а зависимость от входного сигнала в Cross-Attention блоках. В экспериментах с PixArt-alpha это возможно, а с более современными моделями (Stable Diffusion 3, Flux.1) нужно будет придумывать что-то другое: там обуславливание делается уже через MM-DiT блоки без Cross Attention.
В новой версии статьи авторы добавили и результаты с Flux.1 (dev и schnell версиями), но без пояснений, видимо просто без второго критерия.
Качество и скорость замеряли на text-to-image генерации моделью PixArt-alpha, text-to-video OpenSora и генерацию изображения по названию категории DiT-XL/2.
На PixArt-alpha, OpenSora, DiT-XL/2 ускорение в ~2 раза с небольшим ухудшением качества генерации, на Flux.1 - в 1.5 раза.
arXiv.org
Accelerating Diffusion Transformers with Token-wise Feature Caching
Diffusion transformers have shown significant effectiveness in both image and video synthesis at the expense of huge computation costs. To address this problem, feature caching methods have been...
🔥9🤔3 3
🚀 GPT-4o, Gemini, Grok — вряд ли вы могли пропустить хайп этих моделей в редактировании изображений!
Пока мы усердно работали над умным редактором изображений Malvina, многие серьезные игроки уже поняли актуальность и перспективность задачи, и начали раскатывать в своих моделях функции эдитинга картинок.
Мы же выходим на финишную прямую и (скажем по секрету) нам есть чем удивить, так что ждите скорых новостей🔥!
А пока, подготовили для вас первую статью из целого цикла, где мы пройдём полный путь задачи нейросетевого редактирования изображений: от «а что, если просто перегенерить с фиксированным random seed?» до огромных мультимодальных моделей!
В первой статье рассмотрим тривиальные попытки редактирования (фиксирование random seed, инпейнтинг, зашумление-расшумление), разберем методы DDIM Inversion и Null-Text Inversion.
Расписали всё подробно и с красивыми картинками, но в то же время максимально понятно, без сложных формул!
[статья]
P.S. В статью также включили лаконичный ликбез по всей необходимой теории (диффузия, attention, CFG, ...), так что бояться нечего!
Пока мы усердно работали над умным редактором изображений Malvina, многие серьезные игроки уже поняли актуальность и перспективность задачи, и начали раскатывать в своих моделях функции эдитинга картинок.
Мы же выходим на финишную прямую и (скажем по секрету) нам есть чем удивить, так что ждите скорых новостей🔥!
А пока, подготовили для вас первую статью из целого цикла, где мы пройдём полный путь задачи нейросетевого редактирования изображений: от «а что, если просто перегенерить с фиксированным random seed?» до огромных мультимодальных моделей!
В первой статье рассмотрим тривиальные попытки редактирования (фиксирование random seed, инпейнтинг, зашумление-расшумление), разберем методы DDIM Inversion и Null-Text Inversion.
Расписали всё подробно и с красивыми картинками, но в то же время максимально понятно, без сложных формул!
[статья]
P.S. В статью также включили лаконичный ликбез по всей необходимой теории (диффузия, attention, CFG, ...), так что бояться нечего!
Хабр
Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion
Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...
GigaCheck — топ-1 решение в соревновании по определению авторства текстов на AINL 2025 🔥
Честно? Мы вообще не планировали. Просто увидели в одном паблике анонс соревнования по определению авторства текстов на AINL — это крупнейшая восточноевропейская конференция по AI (кстати, у конференции есть свой канал!). Подумали: «А давай попробуем?».
Взяли за основу наш подход GigaCheck, обучили модель с нуля на данных соревнования, немного адаптировав под задачу… и, кажется, не зря 😅
На выходных подвели итоги — первое место! 🥇
Задача была нетривиальная: не просто определить, написан текст человеком или ИИ, но и точно указать, какой именно моделью он был сгенерирован (GPT-4 Turbo, Gemma 2-27B, LLaMA 3.3-70B и две другие модели).
Мы усилили GigaCheck, добавив дополнительную классификационную голову — и получили отличные результаты!
✅ На публичных тестовых данных, где в том числе были тексты, сгенерированные неизвестной моделью, не участвовавшей в тренировке, GigaCheck показал точность в 91% 🚀
✅ На приватном тестовом сете, включавшем тексты ещё одной неизвестной модели и тексты из двух новых доменов, которых GigaCheck также ранее не видел, точность достигла уверенных 86% 🏆
Наш результат оказался лучшим среди всех участников соревнования 👏
Это сильное подтверждение робастности и высокой способности GigaCheck к обобщению — даже в условиях особенно сложных out-of-domain и out-of-distribution задач!
Честно? Мы вообще не планировали. Просто увидели в одном паблике анонс соревнования по определению авторства текстов на AINL — это крупнейшая восточноевропейская конференция по AI (кстати, у конференции есть свой канал!). Подумали: «А давай попробуем?».
Взяли за основу наш подход GigaCheck, обучили модель с нуля на данных соревнования, немного адаптировав под задачу… и, кажется, не зря 😅
На выходных подвели итоги — первое место! 🥇
Задача была нетривиальная: не просто определить, написан текст человеком или ИИ, но и точно указать, какой именно моделью он был сгенерирован (GPT-4 Turbo, Gemma 2-27B, LLaMA 3.3-70B и две другие модели).
Мы усилили GigaCheck, добавив дополнительную классификационную голову — и получили отличные результаты!
Наш результат оказался лучшим среди всех участников соревнования 👏
Это сильное подтверждение робастности и высокой способности GigaCheck к обобщению — даже в условиях особенно сложных out-of-domain и out-of-distribution задач!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30❤9 8🎉4👏3👍2❤🔥1
Привет!
Сегодня для нас очень важный день, поскольку мы подходим к большой и важной вехе на нашем рабочем и жизненном пути. Жизненном потому, что это давно вышло за рамки исполнения обязанностей и стало личным.
Сегодня мы представляем вам проект с рабочим названием Malvina. Технологию, с чьей помощью GigaChat теперь умеет редактировать любые изображения просто по обычному текстовому промпту на любом языке.
Не хочется распинаться о том, какая Malvina крутая модель. Она способна говорить сама за себя.
Но, всё-таки, будет одно громкое заявление:
На основании наших технических метрик, а так же нескольких SBS-сравнений независимыми разметчиками, Malvina обходит на основных задачах по качеству Gemini и Grok.
Мы не говорим здесь о новом ChatGPT-4о (в этом контексте имеется ввиду новая возможность для AR-генерации изображений) потому, что модели невозможно напрямую адекватно сравнить. Мы много рассказали об этом в статье на Хабре, поэтому тут просто кратко повторим: ChatGPT-4о — совершенно потрясающая, стоящая на переднем крае науки, модель. Но на данный момент она не выполняет попиксельное редактирование. И пусть результат часто близок к этому (хотя ещё чаще — нет), всё-таки это сильно разные задачи с разным потолком качества.
Gemini же, на удивление, вполне хорошо справляется с именно нашей задачей, поэтому мы больше ориентируемся на неё.
На всякий случай, мы оставили SBS вот тут.
Но вернёмся к к теме. Поскольку у Malvina под капотом одновременно и сильная VLM модель и качественная диффузионка, она умеет очень много всего классного.
В том числе, делает такие штуки, за которые люди часто хотят денег: удаляет объекты по любому текстовому описанию, восстанавливает и раскрашивает старые фотографии, меняет внешность, удаляет и добавляет бороды, меняет цвет глаз, причёски, одежду, аксессуары, удаляет фон для фотографии на паспорт, перекрашивает что заблагорассудится пользователю, меняет материалы объектов, она даже может восстановить ржавый автомобиль или прибраться за вас в комнате (ну, пока только на фотографии).
И ещё очень много всего, мы даже не всё сами знаем. Кажется этот случай, когда пользователи могут исследовать возможности глубже, чем сами создатели. Главное — следовать духу экспериментаторства и пробовать несколько раз подряд, проверять разные подходы к промпту.
Есть и то, чего модель честно не умеет, просто потому, что пока мы над этим не работали в достаточной мере: ей плохо даётся смена поз или вращение объектов, она не умеет добавлять текст, не всегда справляется с сильными структурными изменениями. Мы не заканчиваем разработку этим релизом, скорее только начинаем, так что в конечном счёте мы решим и эти проблемы.
А сейчас, мы хотим показать, чего уже достигли, и приглашаем вас в GigaChat попробовать самостоятельно!
Сегодня для нас очень важный день, поскольку мы подходим к большой и важной вехе на нашем рабочем и жизненном пути. Жизненном потому, что это давно вышло за рамки исполнения обязанностей и стало личным.
Сегодня мы представляем вам проект с рабочим названием Malvina. Технологию, с чьей помощью GigaChat теперь умеет редактировать любые изображения просто по обычному текстовому промпту на любом языке.
Не хочется распинаться о том, какая Malvina крутая модель. Она способна говорить сама за себя.
Но, всё-таки, будет одно громкое заявление:
На основании наших технических метрик, а так же нескольких SBS-сравнений независимыми разметчиками, Malvina обходит на основных задачах по качеству Gemini и Grok.
Мы не говорим здесь о новом ChatGPT-4о (в этом контексте имеется ввиду новая возможность для AR-генерации изображений) потому, что модели невозможно напрямую адекватно сравнить. Мы много рассказали об этом в статье на Хабре, поэтому тут просто кратко повторим: ChatGPT-4о — совершенно потрясающая, стоящая на переднем крае науки, модель. Но на данный момент она не выполняет попиксельное редактирование. И пусть результат часто близок к этому (хотя ещё чаще — нет), всё-таки это сильно разные задачи с разным потолком качества.
Gemini же, на удивление, вполне хорошо справляется с именно нашей задачей, поэтому мы больше ориентируемся на неё.
На всякий случай, мы оставили SBS вот тут.
Но вернёмся к к теме. Поскольку у Malvina под капотом одновременно и сильная VLM модель и качественная диффузионка, она умеет очень много всего классного.
В том числе, делает такие штуки, за которые люди часто хотят денег: удаляет объекты по любому текстовому описанию, восстанавливает и раскрашивает старые фотографии, меняет внешность, удаляет и добавляет бороды, меняет цвет глаз, причёски, одежду, аксессуары, удаляет фон для фотографии на паспорт, перекрашивает что заблагорассудится пользователю, меняет материалы объектов, она даже может восстановить ржавый автомобиль или прибраться за вас в комнате (ну, пока только на фотографии).
И ещё очень много всего, мы даже не всё сами знаем. Кажется этот случай, когда пользователи могут исследовать возможности глубже, чем сами создатели. Главное — следовать духу экспериментаторства и пробовать несколько раз подряд, проверять разные подходы к промпту.
Есть и то, чего модель честно не умеет, просто потому, что пока мы над этим не работали в достаточной мере: ей плохо даётся смена поз или вращение объектов, она не умеет добавлять текст, не всегда справляется с сильными структурными изменениями. Мы не заканчиваем разработку этим релизом, скорее только начинаем, так что в конечном счёте мы решим и эти проблемы.
А сейчас, мы хотим показать, чего уже достигли, и приглашаем вас в GigaChat попробовать самостоятельно!
🔥44❤17👏13👍6 2🎉1
Небольшая подборка черри-пиков от нас 🦾
Поделитесь, пожалуйста, вашими результатами в комментариях 👇
Поделитесь, пожалуйста, вашими результатами в комментариях 👇
🔥16👍8😍5😱1