Media is too big
VIEW IN TELEGRAM
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
Авторегрессионный диффузный потоковый генератор видео в реальном времени на одном GPU.
Пишут о 16 кадрах в секунду, на каком GPU - не совсем понятно. В бумаге упоминают OOM на 80GB, так что скорее всего речь о H100 каком-нибудь.
Способен создавать несколько минут видео с минимальным накоплением ошибок. На сайте есть сравнение с конкурентами
Код - ждем в октябре
#text2video #realtime
Авторегрессионный диффузный потоковый генератор видео в реальном времени на одном GPU.
Пишут о 16 кадрах в секунду, на каком GPU - не совсем понятно. В бумаге упоминают OOM на 80GB, так что скорее всего речь о H100 каком-нибудь.
Способен создавать несколько минут видео с минимальным накоплением ошибок. На сайте есть сравнение с конкурентами
Код - ждем в октябре
#text2video #realtime
👍4🔥3❤1
Wan2.2-Lightning
Четырехшаговая дистилляция #WAN22
Ограничения: При очень интенсивном движении будут артефакты
Сейчас только A14B
по тексту (Wan2.2-T2V-A14B-NFE4-V1.1)
и по картинке (Wan2.2-I2V-A14B-NFE4-V1)
5B готовят
воркфлоу по ссылке в описании модели
спасибо @m_franz
#text2video #image2video #optimization
Четырехшаговая дистилляция #WAN22
Ограничения: При очень интенсивном движении будут артефакты
Сейчас только A14B
по тексту (Wan2.2-T2V-A14B-NFE4-V1.1)
и по картинке (Wan2.2-I2V-A14B-NFE4-V1)
5B готовят
воркфлоу по ссылке в описании модели
спасибо @m_franz
#text2video #image2video #optimization
👍9🔥5❤1🌚1
Нейронавт | Нейросети в творчестве
Krea-CSG (Krea Foundation) Вышла модификация FLUX.1 Krea весом всего 6.5 ГБ, жестко оптимизированная под Nvidia, GGUF Дружественная к VRAM-беднякам Настройки: CFG 1 , Steps 30 - 45 , Eular , Sample / Beta (res2 pref) #gguf #text2image #optimization #workflow
Вчера удалил ссылку на воркфлоу Krea-CSG по жалобам на нерабочесть.
Проверил - работает. Лорами пользоваться необязательно, их можно отключить. Апскейл по умолчанию тоже отключил. ВФ закину в комменты.
Сравнил с таким же по весу квантом оригинальной Flux Krea dev q4_K_M - 6.5 ГБ
Результаты с лорой Flux_Krea_Blaze_Lora-rank128.safetensors 832 x 1216, 8 шагов:
картинка 1, Krea_CSG - 35 сек
картинка 2, Flux Krea dev q4_K_M - 43 сек
Выглядят идентично.
Без лоры, 832 x 1216, 20 шагов:
картинка 3, Krea_CSG - 69 сек
картинка 4, Flux Krea dev q4_K_M - 63 сек
Выглядят идентично.
картинка 5, Flux Krea Blaze - 64 сек - тоже решил сравнить, картинка отличается
Все на одном сиде
По итогу - ну небольшая экономия времени с лорой. Вероятно можно включить еще какие-то оптимизации. Krea Blaze потяжелее но результаты интереснее
#comparison #workflow #gguf #text2image #optimization
Проверил - работает. Лорами пользоваться необязательно, их можно отключить. Апскейл по умолчанию тоже отключил. ВФ закину в комменты.
Сравнил с таким же по весу квантом оригинальной Flux Krea dev q4_K_M - 6.5 ГБ
Результаты с лорой Flux_Krea_Blaze_Lora-rank128.safetensors 832 x 1216, 8 шагов:
картинка 1, Krea_CSG - 35 сек
картинка 2, Flux Krea dev q4_K_M - 43 сек
Выглядят идентично.
Без лоры, 832 x 1216, 20 шагов:
картинка 3, Krea_CSG - 69 сек
картинка 4, Flux Krea dev q4_K_M - 63 сек
Выглядят идентично.
картинка 5, Flux Krea Blaze - 64 сек - тоже решил сравнить, картинка отличается
Все на одном сиде
По итогу - ну небольшая экономия времени с лорой. Вероятно можно включить еще какие-то оптимизации. Krea Blaze потяжелее но результаты интереснее
#comparison #workflow #gguf #text2image #optimization
👍9😁2
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
Совместная разработка Han Lab (авторов Nunchaku) и NVIDIA
Новый тип автоэнкодеров — Deep Compression Autoencoder (DC-AE) для ускорения генераторов изображений высокого разрешения
Ускоряет генерацию изображений: на ImageNet с разрешением 512x512 вывод становится быстрее в 19,1 раза, а обучение — в 17,9 раза.
На 5090 с Flux Krea выдает 4K за 3.5 сек
Позволяет создавать изображения по тексту даже на ноутбуке.
Гитхаб
Демо - DC-Gen-Sana-4.8B 1024px
#text2image #optimization
Совместная разработка Han Lab (авторов Nunchaku) и NVIDIA
Новый тип автоэнкодеров — Deep Compression Autoencoder (DC-AE) для ускорения генераторов изображений высокого разрешения
Ускоряет генерацию изображений: на ImageNet с разрешением 512x512 вывод становится быстрее в 19,1 раза, а обучение — в 17,9 раза.
На 5090 с Flux Krea выдает 4K за 3.5 сек
Позволяет создавать изображения по тексту даже на ноутбуке.
Гитхаб
Демо - DC-Gen-Sana-4.8B 1024px
#text2image #optimization
🔥13
Wan-Alpha
Кто хотел генерировать видео с альфа-каналом? Вот оно.
На базе Wan2.1-T2V-14B
К нему нужна ускорялка Lightx2v-T2V-14B
VAE свой - Wan-Alpha VAE. Для #ComfyUI - отдельно декодер RGB и отдельно декодер альфа канала
И своя RGBA Dora
То есть, к привычному воркфлоу докачаете всего пару гигабайт
Гитхаб
HF
Wan-Alpha_ComfyUI
воркфлоу
#RGBA #text2video #text2rgba #workflow
Кто хотел генерировать видео с альфа-каналом? Вот оно.
На базе Wan2.1-T2V-14B
К нему нужна ускорялка Lightx2v-T2V-14B
VAE свой - Wan-Alpha VAE. Для #ComfyUI - отдельно декодер RGB и отдельно декодер альфа канала
И своя RGBA Dora
То есть, к привычному воркфлоу докачаете всего пару гигабайт
Гитхаб
HF
Wan-Alpha_ComfyUI
воркфлоу
#RGBA #text2video #text2rgba #workflow
🔥14🤯5👍4🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Sora 2
сделали мобильное приложение
Функция Cameo - Можно поместить себя в видео по короткому видеообразцу
Генерит сразу со звуком
весь ролик - генерация
Уже не успеваешь выйти в магазин - выходит новая #sota
#news
сделали мобильное приложение
Функция Cameo - Можно поместить себя в видео по короткому видеообразцу
Генерит сразу со звуком
весь ролик - генерация
Уже не успеваешь выйти в магазин - выходит новая #sota
#news
👍10👎4🥴4🔥2🌚2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 Video Lite
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров неплохо
Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть
Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot
статья на Хабре
Гитхаб
HF
#text2video
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров неплохо
Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть
Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot
статья на Хабре
Гитхаб
HF
#text2video
👍19🔥3😁1