Upscale-A-VideoTemporal-Consistent Diffusion Model for Real-World Video Super-Resolution
Диффузионный апскейлер видео. На вход нужно видео и текстовое описание. Демонстрационные результаты выглядят круто. На деле посмотрим когда выложат код.
Код
#upscale #superresolution #video2video #upscalevideo
Диффузионный апскейлер видео. На вход нужно видео и текстовое описание. Демонстрационные результаты выглядят круто. На деле посмотрим когда выложат код.
Код
#upscale #superresolution #video2video #upscalevideo
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting
Высококачественный инпейнтинг/аутпейнтинг - замена объектов на изображении/дорисовка
Код
Демо (китайский сайт, у меня загрузился только через VPN)
#inpainting #outpainting
Высококачественный инпейнтинг/аутпейнтинг - замена объектов на изображении/дорисовка
Код
Демо (китайский сайт, у меня загрузился только через VPN)
#inpainting #outpainting
👍9
Forwarded from CG дневничок (Sergey Frolov)
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney выкатила браузерную версию нейронки — без ебучего дискорда. Мы дожили до этого момента.
Пока попробовать веб-версию Midjourney могут только юзеры с 10 тысячами генераций за плечами.
Пока попробовать веб-версию Midjourney могут только юзеры с 10 тысячами генераций за плечами.
🔥14👍3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.
Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.
Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.
Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.
Диффузия Go Brrrrr! - это лозунг нашей команды.
Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.
@ai_newz
Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.
Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.
Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.
Диффузия Go Brrrrr! - это лозунг нашей команды.
Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.
@ai_newz
🔥4❤1👍1
Вот несколько важных штук о которых я вам не успевал рассказать. Текст честно с@$&дил у Олега. И тегов насыплю чтобы можно было найти по поиску
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌 Сайт.
#inpainting #outpainting #textto3D #text2video #text2speech #text2music #voicecloning #text2audio #text2sound
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌 Сайт.
#inpainting #outpainting #textto3D #text2video #text2speech #text2music #voicecloning #text2audio #text2sound
Telegram
КиберОлег 🦄🤖🙌
Привет, я Олег - ml engineer и основатель в tatradev.com и https://insomnia.land. В канале пишу простыми словами об искусственном интеллекте и стартапах. Welcome!
По вопросам сотрудничества:
t.me/cyber_oleg
По вопросам сотрудничества:
t.me/cyber_oleg
🔥9❤2👍1👎1
ИИнтересуетесь ли вы офлайн мероприятиями на ИИ тематики?
Anonymous Poll
40%
Интересуюсь, хотел бы посетить если программа интересная
27%
Интересуюсь, но с дивана вставать неохота
32%
Не интересуюсь
На литературном конкурсе победил научно-фантастический рассказ, написанный ИИ
Профессор журналистики написал научно-фантастическую новеллу о метавселенной и человекоподобных роботах под названием «Страна воспоминаний». Она написана на китайском языке объёмом почти 6000 знаков. ИИ создал черновик на 43 000 знаков всего за три часа с помощью 66 подсказок.
Иллюстрации к новелле также были созданы искусственным интеллектом.
На конкурсе от Ассоциации писателей-фантастов Цзянсу произведение получило второй приз из 17. Только один из шести судей был уведомлен о том, что профессор использовал ИИ в своей работе. Другой судья, который изучал вопрос создания контента с использованием ИИ, догадался, что работа была сгенерирована ИИ и не стал голосовать за неё, так как работе «не хватало ярких эмоций».
Хабр
#news
Профессор журналистики написал научно-фантастическую новеллу о метавселенной и человекоподобных роботах под названием «Страна воспоминаний». Она написана на китайском языке объёмом почти 6000 знаков. ИИ создал черновик на 43 000 знаков всего за три часа с помощью 66 подсказок.
Иллюстрации к новелле также были созданы искусственным интеллектом.
На конкурсе от Ассоциации писателей-фантастов Цзянсу произведение получило второй приз из 17. Только один из шести судей был уведомлен о том, что профессор использовал ИИ в своей работе. Другой судья, который изучал вопрос создания контента с использованием ИИ, догадался, что работа была сгенерирована ИИ и не стал голосовать за неё, так как работе «не хватало ярких эмоций».
Хабр
#news
❤4
LongAnimateDiff
Гнератор "длинных" видео по тексту в двух вариантах
- LongAnimateDiff, от 16 до 64 кадров.
Веса можно загрузить с Google Drive или HuggingFace. Для получения оптимальных результатов рекомендуется использовать шкалу движения 1,28.
- Специализированная модель, 32 кадра. Создает видео более высокого качества по сравнению с моделью LongAnimateDiff, поддерживающей 16-64 кадра. Веса на Google Drive или HuggingFace. Для получения хороших результатов используйте масштаб движения 1,15.
Есть готовый воркфлоу для ComfyUI
Код
Демо
#text2video
Гнератор "длинных" видео по тексту в двух вариантах
- LongAnimateDiff, от 16 до 64 кадров.
Веса можно загрузить с Google Drive или HuggingFace. Для получения оптимальных результатов рекомендуется использовать шкалу движения 1,28.
- Специализированная модель, 32 кадра. Создает видео более высокого качества по сравнению с моделью LongAnimateDiff, поддерживающей 16-64 кадра. Веса на Google Drive или HuggingFace. Для получения хороших результатов используйте масштаб движения 1,15.
Есть готовый воркфлоу для ComfyUI
Код
Демо
#text2video
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Fairy
А вот более впечатляющая нейросетка от Meta (запрещена в РФ) для обработки видео.
Fairy расставляет на кадрах готового видеоролика ключи, на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости 44 раза.
- замена объекта/персонажа
- стилизация
- генерация длинных видео без переполнения памяти. 27-секундное видео генерит за 71.89 секунд на шести A100
Код ждем
#video2video
А вот более впечатляющая нейросетка от Meta (запрещена в РФ) для обработки видео.
Fairy расставляет на кадрах готового видеоролика ключи, на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости 44 раза.
- замена объекта/персонажа
- стилизация
- генерация длинных видео без переполнения памяти. 27-секундное видео генерит за 71.89 секунд на шести A100
Код ждем
#video2video
❤5
VideoPoet
Генератор видео от Google. А точнее - генератор историй.
Сами авторы классифицируют свое детище как LLM, а не какой-то там генератор видео.
- продление поданных на вход видео
- генерация звука к заданному видео
- Inpaint/Outpaint
- Редактирование видео с помощью анимации промптов
- Анимация входного изображения
- стилизация видео
Кода нет.
#text2video #image2video #video2audio #video2video
Генератор видео от Google. А точнее - генератор историй.
Сами авторы классифицируют свое детище как LLM, а не какой-то там генератор видео.
- продление поданных на вход видео
- генерация звука к заданному видео
- Inpaint/Outpaint
- Редактирование видео с помощью анимации промптов
- Анимация входного изображения
- стилизация видео
Кода нет.
#text2video #image2video #video2audio #video2video
❤5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
PASD: Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
Апскейлер/стилизатор/колоризатор попиксельного уровня на основе SD
Код
Демо
Колаб
#image2image #upscale #superscale #superresolution #colorize #restoration
Апскейлер/стилизатор/колоризатор попиксельного уровня на основе SD
Код
Демо
Колаб
#image2image #upscale #superscale #superresolution #colorize #restoration
👍12
ИИ нашел в картине Рафаэля «Мадонна с розой» признаки, что она была дорисована другим художником
Исследователи из Великобритании и США разработали алгоритм, который распознает подлинные произведения Рафаэля с точностью 98% для выявления подделок. Анализ картины «Мадонны с розой» показал, что лицо Иосифа было дорисовано другой рукой.
Напомним, что на картине изображена Дева Мария, которая держит на руках младенца Христа. Святой Иоанн Креститель вручает Иисусу ленту со словами «Agnus Dei» (Агнец Божий), а святой Иосиф на заднем плане наблюдает за этой сценой. До середины XIX века автором полотна считался Рафаэлем, но позже исследователи пришли к выводу, что нижняя часть картины могла быть нарисована не самим мастером, а его помощниками.
Детальный анализ с применением ИИ показал, что нижняя часть картины, которая ставилась под сомнение, с высокой вероятностью принадлежит кисти Рафаэля, а вот изображение Иосифа на заднем плане рисовал кто-то другой.
@qwerty_live
#news
Исследователи из Великобритании и США разработали алгоритм, который распознает подлинные произведения Рафаэля с точностью 98% для выявления подделок. Анализ картины «Мадонны с розой» показал, что лицо Иосифа было дорисовано другой рукой.
Напомним, что на картине изображена Дева Мария, которая держит на руках младенца Христа. Святой Иоанн Креститель вручает Иисусу ленту со словами «Agnus Dei» (Агнец Божий), а святой Иосиф на заднем плане наблюдает за этой сценой. До середины XIX века автором полотна считался Рафаэлем, но позже исследователи пришли к выводу, что нижняя часть картины могла быть нарисована не самим мастером, а его помощниками.
Детальный анализ с применением ИИ показал, что нижняя часть картины, которая ставилась под сомнение, с высокой вероятностью принадлежит кисти Рафаэля, а вот изображение Иосифа на заднем плане рисовал кто-то другой.
@qwerty_live
#news
🔥6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
PIA: Your Personalized Image Animatorvia Plug-and-Play Modules in Text-to-Image Models
Китайский аниматор картинок по текстовому заданию.
Согласитесь, это несколько полезнее чем генерация рандомного действия.
Похоже, поддерживает разные t2i адаптеры
Код
Демо1
Демо2
#image2video #text2video
Китайский аниматор картинок по текстовому заданию.
Согласитесь, это несколько полезнее чем генерация рандомного действия.
Похоже, поддерживает разные t2i адаптеры
Код
Демо1
Демо2
#image2video #text2video
👍8
Forwarded from AI для Всех (Kirill)
Делаем веб интерфейс для Ollama
Для того чтобы с Ollama было удобнее и приятнее работать, можно прикрутить к ней веб интерфейс очень подобный по дизайну на ChatGPT.
Пошаговая инструкция:
1) Ставим Docker и убеждаемся что он работает (если уже есть и на ходу, переходим к следующему пункту). Для тех, кто не в теме, читаем матчасть тут. Я использую Docker Desktop.
2) Ставим Ollama. Если на вашем компе уже живёт и работает Ollama, переходим к следующему шагу. Ollama и веб интерфейс можно поставить вместе, используя Docker compose файл в репозитории и команду: docker compose up -d --build для машин без GPU.
Для машин с GPU пишем: docker compose -f docker-compose.yml -f docker-compose.gpu.yml up -d --build
3) Если у вас уже есть Docker и Ollama, как было у меня, то убеждаемся что Ollama работает, вписав следующее в адресной строке браузера: https://127.0.0.1:11434/ (у вас может быть другой порт). Если браузер показывает вам сообщение: Ollama is running, то пишем команду: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name ollama-webui --restart
4) Ждём пока Docker выполнит задачу
5) Ollama веб интерфейс должен открыться на следующем адресе: https://localhost:3000/ . Вы должны увидеть интерфейс, как на картинке в данном посте.
6) Enjoy!
🌌 Подробная инструкция
Для того чтобы с Ollama было удобнее и приятнее работать, можно прикрутить к ней веб интерфейс очень подобный по дизайну на ChatGPT.
Пошаговая инструкция:
1) Ставим Docker и убеждаемся что он работает (если уже есть и на ходу, переходим к следующему пункту). Для тех, кто не в теме, читаем матчасть тут. Я использую Docker Desktop.
2) Ставим Ollama. Если на вашем компе уже живёт и работает Ollama, переходим к следующему шагу. Ollama и веб интерфейс можно поставить вместе, используя Docker compose файл в репозитории и команду: docker compose up -d --build для машин без GPU.
Для машин с GPU пишем: docker compose -f docker-compose.yml -f docker-compose.gpu.yml up -d --build
3) Если у вас уже есть Docker и Ollama, как было у меня, то убеждаемся что Ollama работает, вписав следующее в адресной строке браузера: https://127.0.0.1:11434/ (у вас может быть другой порт). Если браузер показывает вам сообщение: Ollama is running, то пишем команду: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name ollama-webui --restart
4) Ждём пока Docker выполнит задачу
5) Ollama веб интерфейс должен открыться на следующем адресе: https://localhost:3000/ . Вы должны увидеть интерфейс, как на картинке в данном посте.
6) Enjoy!
🌌 Подробная инструкция
❤3🔥2