CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation
Какой-то гибрид лоры и контролнет. Они обучили базовый контролнет на базовые знания всех видов управляющих изображений. И чтобы дообучить на что-то конкретное надо всего 1000 пар картинок. И объем дообученного CtrLoRA в 10 раз меньше чем контролнет
На данный момент сделано под SD 1.5. Требует от 9Гб VRAM для 512*512
Код
#finetuning #conditioning #lora #controlnet
Какой-то гибрид лоры и контролнет. Они обучили базовый контролнет на базовые знания всех видов управляющих изображений. И чтобы дообучить на что-то конкретное надо всего 1000 пар картинок. И объем дообученного CtrLoRA в 10 раз меньше чем контролнет
На данный момент сделано под SD 1.5. Требует от 9Гб VRAM для 512*512
Код
#finetuning #conditioning #lora #controlnet
👍5🔥2
Cagliostro Forge Colab
Для тех у кого нет железа запустить Forge локально. Теперь можете гонять его онлайн в колабе на бесплатных T4.
Оптимизирован под SDXL. Потянет ли Flux - вопрос, на который предстоит ответить
Колаб
#tools #text2image
Для тех у кого нет железа запустить Forge локально. Теперь можете гонять его онлайн в колабе на бесплатных T4.
Оптимизирован под SDXL. Потянет ли Flux - вопрос, на который предстоит ответить
Колаб
#tools #text2image
👍5
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Один из крутейших инструментов, которые есть сейчас в Photoshop, — это возможность генерировать 3D-сплаты и на их основе дополнять 2D-генерациями (диффузиями). Проще говоря, генерить модельки и догенерировать окружение.
Конечно, в продакшене это будет не так быстро, как на видео (оно ведь ускорено в 10 раз🤡 ). Всегда захочется что-то домоделить, поменять форму, угол, добавить более зеленой травы и прочей маркетинговой дрочи. Мы ведь мечту продаём не меньше!
Но всё равно это в десятки раз быстрее, чем когда я занимался дизайном лет 10 назад.
Вопрос к дизайнерам: напишите, как часто пользуетесь сейчас генеративными тулзами и спасает ли это вас от менеджмента с их комментариями?)))
Конечно, в продакшене это будет не так быстро, как на видео (оно ведь ускорено в 10 раз
Но всё равно это в десятки раз быстрее, чем когда я занимался дизайном лет 10 назад.
Вопрос к дизайнерам: напишите, как часто пользуетесь сейчас генеративными тулзами и спасает ли это вас от менеджмента с их комментариями?)))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👎2🔥2
RF-Inversion: Semantic Image Inversion and Editing using Stochastic Rectified Differential Equations
эффективный метод инверсии изображений на основе очищенных потоков (Rectified Flows - RF) как альтернатива диффузным инверторам. Работает в том числе с Flux, не требует дополнительного обучения, скрытой оптимизации, быстрой настройки или сложных процессоров внимания.
Проще говоря, эффективный перенос стиля, объекта, концепции с образца
Код ждем
#styletransfer #personalization
эффективный метод инверсии изображений на основе очищенных потоков (Rectified Flows - RF) как альтернатива диффузным инверторам. Работает в том числе с Flux, не требует дополнительного обучения, скрытой оптимизации, быстрой настройки или сложных процессоров внимания.
Проще говоря, эффективный перенос стиля, объекта, концепции с образца
Код ждем
#styletransfer #personalization
👍7❤1🔥1
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Попытки побить диффузию не прекращаются.
MIT, NVIDIA и Tsinghua University представляют вашему вниманию авторегрессионный генератор изображений с гибридным токенизатором.
В демке на первую генерацию картинки ушло около минуты,дальше как в их видео по 2 секунды на картинку
Главный вопрос: что с кастомизацией?
Код
Демо
#text2image #news
Попытки побить диффузию не прекращаются.
MIT, NVIDIA и Tsinghua University представляют вашему вниманию авторегрессионный генератор изображений с гибридным токенизатором.
В демке на первую генерацию картинки ушло около минуты,дальше как в их видео по 2 секунды на картинку
Главный вопрос: что с кастомизацией?
Код
Демо
#text2image #news
👍3
❤4
Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer
Генератор картинок по тексту от Nvidia и компании.
Может эффективно генерировать изображения с разрешением до 4096 × 4096.
Из фишек - скорость даже на GPU ноутбука, четкое следование промпту.
Часть команды бывшие разработчики PixArt, которые присоединились к NVIDIA, а NVIDIA недавно выпустила конкурента GPT4 LLM с открытым исходным кодом - так что, похоже, есть вероятность что они опубликуют веса и код Sana.
Код ждем
#text2image
Генератор картинок по тексту от Nvidia и компании.
Может эффективно генерировать изображения с разрешением до 4096 × 4096.
Из фишек - скорость даже на GPU ноутбука, четкое следование промпту.
Sana-0.6B вполне конкурентоспособен с современной моделью гигантской диффузии (например, Flux-12B), поскольку в 20 раз меньше и более чем в 100 раз выше по измеряемой пропускной способности. Кроме того, Sana-0.6B может быть развернут на графическом процессоре ноутбука емкостью 16 ГБ, при этом для создания изображения с разрешением 1024 × 1024 требуется менее 1 секунды
Часть команды бывшие разработчики PixArt, которые присоединились к NVIDIA, а NVIDIA недавно выпустила конкурента GPT4 LLM с открытым исходным кодом - так что, похоже, есть вероятность что они опубликуют веса и код Sana.
Код ждем
#text2image
❤8👍3👏1
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
Интересная разработка с участием Apple и Google, без кода
Генератор видео, позволяющий создавать несколько видеороликов одной сцены с точным контролем движения камеры, одновременно сохраняя движение объекта.
#text2video #multiview #cameracontrol
Интересная разработка с участием Apple и Google, без кода
Генератор видео, позволяющий создавать несколько видеороликов одной сцены с точным контролем движения камеры, одновременно сохраняя движение объекта.
#text2video #multiview #cameracontrol
👍4👏1