This media is not supported in your browser
VIEW IN TELEGRAM
В Pika теперь можно генерировать видео с зашифрованным текстом или изображением, наподобие того что делает QR monster
Использование:
/encrypt_text (до 20 символов)
message: <Текст>
prompt: <промт для видео>
image (необязательно) <начальная картинка>
font (опционально)
/encrypt_image
message: <картинка>
prompt:
image (необязательно)
#text2video #image2video
Использование:
/encrypt_text (до 20 символов)
message: <Текст>
prompt: <промт для видео>
image (необязательно) <начальная картинка>
font (опционально)
/encrypt_image
message: <картинка>
prompt:
image (необязательно)
#text2video #image2video
🔥5👍1
ProPainter: Improving Propagation and Transformer for Video Inpainting
Это уже похоже на хороший инструмент для клинапа. Инпейнтинг, аутпейнтинг видео. Заполнение видео по маске.
Прожорлив до VRAM, разумеется (см скриншот).
Код
Демо обещают позже
Колаб
#video2video #cleanup #inpainting #outpainting #videoinpainting
Это уже похоже на хороший инструмент для клинапа. Инпейнтинг, аутпейнтинг видео. Заполнение видео по маске.
Прожорлив до VRAM, разумеется (см скриншот).
Код
Демо обещают позже
Колаб
#video2video #cleanup #inpainting #outpainting #videoinpainting
👍2
Forwarded from эйай ньюз
Я тут пересобрал для вас новый колаб для DiffBIR на базе последних коммитов из оф. репы: можете попробовать тут.
Нужен Colab Pro, т.к. в 12 GB оперативки не вместится.
Метод действительно работает, но не на всех видах деформаций. Опять начерепикали в статье...🌚 Но все же лучше чем real-ESRGAN.
Попугая нормально восстановило. А вот мем "смекалочка" не хотел восстанавливаться в нормальное лицо, пока я вручную не добавил промпт и CFG.
Пикселизованное 8-битное лицо, например, вообще отказалось превращаться в нормальное - видимо, метод не считает это за corruption, и думает что это часть композиции.
Боюсь, что многие универсальные восстановители изображений (а BirDIFF заявлялся одним из таких) будут страдать от того, что некоторые поврежедния будут считать частью оригинальной картинки.
Специализированные же методы, конечно, будут давать лучшие результаты если применять их в том же домене, на котором они и были обучены.
@ai_newz
Нужен Colab Pro, т.к. в 12 GB оперативки не вместится.
Метод действительно работает, но не на всех видах деформаций. Опять начерепикали в статье...🌚 Но все же лучше чем real-ESRGAN.
Попугая нормально восстановило. А вот мем "смекалочка" не хотел восстанавливаться в нормальное лицо, пока я вручную не добавил промпт и CFG.
Пикселизованное 8-битное лицо, например, вообще отказалось превращаться в нормальное - видимо, метод не считает это за corruption, и думает что это часть композиции.
Боюсь, что многие универсальные восстановители изображений (а BirDIFF заявлялся одним из таких) будут страдать от того, что некоторые поврежедния будут считать частью оригинальной картинки.
Специализированные же методы, конечно, будут давать лучшие результаты если применять их в том же домене, на котором они и были обучены.
@ai_newz
👍6
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing
Генрация изображений по тексту, с заданным объектом, стилем. Понимает заданные объекты на изображении без дообучения. Впрочем, с небольшим дообучением понимает еще лучше - меньше 80 шагов.
Фичи: замена, встраивание объекта, смешивание, интерполяция, перенос стиля. Поддерживает #ControlNet
На сайте есть интерактивные демки, можно потыркать
Код
Плагин для Blender
#text2image #image2image #styletransfer
Генрация изображений по тексту, с заданным объектом, стилем. Понимает заданные объекты на изображении без дообучения. Впрочем, с небольшим дообучением понимает еще лучше - меньше 80 шагов.
Фичи: замена, встраивание объекта, смешивание, интерполяция, перенос стиля. Поддерживает #ControlNet
На сайте есть интерактивные демки, можно потыркать
Код
Плагин для Blender
#text2image #image2image #styletransfer
👍3❤1
Forwarded from Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит
Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.
Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.
В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.
Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.
OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.
Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.
Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.
В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.
Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.
OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.
Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Getty Images разродились своим обещанным генератором картинок с искрометным названием Generative AI, обученным на полностью лицензионном датасете. Там можно запросить демо доступ. Не знаю что еще сказать. А, название клевое
#text2image
#text2image
Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем…
This media is not supported in your browser
VIEW IN TELEGRAM
🔥1
👎2👍1
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections
Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль
Код
Демо
#image2scene #imageto3D
Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль
Код
Демо
#image2scene #imageto3D
Media is too big
VIEW IN TELEGRAM
Spotify запустил пилотную программу ИИ-дубляжа подкастов. Пока только на испанский, французский и немецкий языки.
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.
#dubbing #voicecloning #speech2speech #localization #podcast
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.
#dubbing #voicecloning #speech2speech #localization #podcast
🔥1
BulkCorrector
Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.
Похоже, нет поддержки русского языка
Попробовать
Producthunt
#text2text #tools #textediting
Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.
Похоже, нет поддержки русского языка
Попробовать
Producthunt
#text2text #tools #textediting