DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
Реставрация и апскейл фото. Конкурент GFP-GAN, CodeFormer, RealESRGAN. Все есть: код, демо, даже портативная версия. Ну как портативная, 24 Гб. Очень прожорливый до ресурсов, работает по маленьким разрешениям. По моим тестам результат не превзошел GFP-GAN. Но тут есть рульки и можно писать промпты, надо разобраться.
Код
Демоспейс
Колаб
Портативная версия от Neurogen
#restoration #enhance #facerestoration #upscale
Реставрация и апскейл фото. Конкурент GFP-GAN, CodeFormer, RealESRGAN. Все есть: код, демо, даже портативная версия. Ну как портативная, 24 Гб. Очень прожорливый до ресурсов, работает по маленьким разрешениям. По моим тестам результат не превзошел GFP-GAN. Но тут есть рульки и можно писать промпты, надо разобраться.
Код
Демоспейс
Колаб
Портативная версия от Neurogen
#restoration #enhance #facerestoration #upscale
HDTR: A Real-Time High-Definition Teeth Restoration Network for Arbitrary Talking Face Generation Methods
Улучшайзер зубов в реальном времени для генераторов видео говорящих голов, которые не справляются с корректной отрисовкой рта
Код
#video2video #restoration #facerestoration #mouth
Улучшайзер зубов в реальном времени для генераторов видео говорящих голов, которые не справляются с корректной отрисовкой рта
Код
#video2video #restoration #facerestoration #mouth
Forwarded from Psy Eyes (Andrey Bezryadin)
Media is too big
VIEW IN TELEGRAM
Код Render-a-video опубликован.
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Forwarded from Мишин Лернинг
This media is not supported in your browser
VIEW IN TELEGRAM
🦔 OpenAI обучили DALL-E 3
Сложно назвать это релизом, скорее просто неплохая модель, работающая в связке с GPT-4. Мне лично кажется, что следующий Stable Diffusion будет куда умнее и интереснее эстетической точки зрения.
2021 DALL-E 1 — 12B модель, пейпер / API нет
2021 GLIDE — 2B модель, пейпер + опенсорс 300M модели
2022 DALL-E 2 — 2B модель, пейпер unCLIP + API
2023 DALL-E 3 — Хрен пойми что это, но будет интеграция с GPT-4 для подписчиков ChatGPT+
Про DALL-E 3 на сайте OpenAI
Сложно назвать это релизом, скорее просто неплохая модель, работающая в связке с GPT-4. Мне лично кажется, что следующий Stable Diffusion будет куда умнее и интереснее эстетической точки зрения.
2021 DALL-E 1 — 12B модель, пейпер / API нет
2021 GLIDE — 2B модель, пейпер + опенсорс 300M модели
2022 DALL-E 2 — 2B модель, пейпер unCLIP + API
2023 DALL-E 3 — Хрен пойми что это, но будет интеграция с GPT-4 для подписчиков ChatGPT+
Про DALL-E 3 на сайте OpenAI
👍2
Forwarded from эйай ньюз
Модель максимально кастрировали алайнментом и фильтрами нежелательного контента. Dalle-3 откажется генерить известных людей, любые картины в стиле существующих художников и любой небезопасный контент по мнению OpenAI. Так компания обезопасила себя от судебных исков.
Кажется, что фотореалистичный контент модель тоже слабо умеет генерировать. Везде видна стилизация, картинки выглядят отрендеренными и слегка пластмассовыми, а не как реальные фотографии, даже если в промпте явно написать "photograph".
Промпты:
1. Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.
2. A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.
3. A photo of an ancient shipwreck nestled on the ocean floor...
@ai_newz
Кажется, что фотореалистичный контент модель тоже слабо умеет генерировать. Везде видна стилизация, картинки выглядят отрендеренными и слегка пластмассовыми, а не как реальные фотографии, даже если в промпте явно написать "photograph".
Промпты:
1. Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated.
2. A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.
3. A photo of an ancient shipwreck nestled on the ocean floor...
@ai_newz
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
AnimateDiff for ComfyUI
В ComfyUI теперь можно генерить видео при помощи AnimateDiff длиннее 16 кадров. Автор обновил кастомную ноду и поделился набором сетапов.
Гитхаб
#image2video
В ComfyUI теперь можно генерить видео при помощи AnimateDiff длиннее 16 кадров. Автор обновил кастомную ноду и поделился набором сетапов.
Гитхаб
#image2video
🔥7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
AudioSR: Versatile Audio Super-resolution at Scale
Улучшение качества звука на основе диффузии. Музыка, речь - все улучшит.
На примерах звучит волшебно.
AudioSR может преобразовать любой входной аудиосигнал в диапазоне частот от 2 кГц до 16 кГц в аудиосигнал высокого разрешения с полосой пропускания 24 кГц и частотой дискретизации 48 кГц.
Одно из применений - улучшение результатов генераторов музыки и речи.
Код
#audio2audio #upsample #audioenhance #audiodenoise
Улучшение качества звука на основе диффузии. Музыка, речь - все улучшит.
На примерах звучит волшебно.
AudioSR может преобразовать любой входной аудиосигнал в диапазоне частот от 2 кГц до 16 кГц в аудиосигнал высокого разрешения с полосой пропускания 24 кГц и частотой дискретизации 48 кГц.
Одно из применений - улучшение результатов генераторов музыки и речи.
Код
#audio2audio #upsample #audioenhance #audiodenoise
😱2
Forwarded from e/acc
This media is not supported in your browser
VIEW IN TELEGRAM
Можно вечно смотреть как бот подается на вакансии. Если ваши рекрутеры все ещё кожаные, то вас ждут тяжелые времена ;)
Этот скрипт считывает вакансию, сопоставляет её c резюме и заполняет вопросы и сопроводительные письма, где это требуется, индивидуальными ответами в стиле аппликанта.
Этот скрипт считывает вакансию, сопоставляет её c резюме и заполняет вопросы и сопроводительные письма, где это требуется, индивидуальными ответами в стиле аппликанта.
🤯8👍4👎1
Media is too big
VIEW IN TELEGRAM
Copilot
Microsoft выкатывает ИИ-ассистента Copilot. Он будет доступен вот-вот уже на днях в Windows 11, 365 и в Bing.
#assistant #chatbot
Microsoft выкатывает ИИ-ассистента Copilot. Он будет доступен вот-вот уже на днях в Windows 11, 365 и в Bing.
#assistant #chatbot
❤4
Würstchen: Fast Diffusion for Image Generation
Wurstchen - новая диффузионная модель генерации картинок по тексту.
Зачем нам еще одна? А чтобы было быстро и с высоким разрешением.
Достигается это за счет двухступенчатой компрессии латентного пространства аж в 42 раза. А это скорость обучения и генерации.
Разрешение на выходе от 1024x1024 до 1536x1536 и иногда показывает хорошие результаты при разрешении 1024x2048.
Интеграция с diffusers означает что скоро можно будет пользоваться этой штукой в каком-нибудь автоматик1111 и ComfyUI
Демо прямо там, на странице проекта внизу
Код/веса на Гитхабе и Diffusers
Колаб
Видео с объяснением на 13 минут (английский)
#text2image
Wurstchen - новая диффузионная модель генерации картинок по тексту.
Зачем нам еще одна? А чтобы было быстро и с высоким разрешением.
Достигается это за счет двухступенчатой компрессии латентного пространства аж в 42 раза. А это скорость обучения и генерации.
Разрешение на выходе от 1024x1024 до 1536x1536 и иногда показывает хорошие результаты при разрешении 1024x2048.
Интеграция с diffusers означает что скоро можно будет пользоваться этой штукой в каком-нибудь автоматик1111 и ComfyUI
Демо прямо там, на странице проекта внизу
Код/веса на Гитхабе и Diffusers
Колаб
Видео с объяснением на 13 минут (английский)
#text2image
❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
даже железяки уже сваливают
"and thanks for all thefish data"
Объявляется конкурс на лучший заголовок
Утащено
"and thanks for all the
Объявляется конкурс на лучший заголовок
Утащено
🔥5