Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.44K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
В Pika теперь можно генерировать видео с зашифрованным текстом или изображением, наподобие того что делает QR monster

Использование:
/encrypt_text (до 20 символов)
message: <Текст>
prompt: <промт для видео>
image (необязательно) <начальная картинка>
font (опционально)

/encrypt_image
message: <картинка>
prompt:
image (необязательно)

#text2video #image2video
🔥5👍1
ProPainter: Improving Propagation and Transformer for Video Inpainting

Это уже похоже на хороший инструмент для клинапа. Инпейнтинг, аутпейнтинг видео. Заполнение видео по маске.
Прожорлив до VRAM, разумеется (см скриншот).

Код
Демо обещают позже
Колаб

#video2video #cleanup #inpainting #outpainting #videoinpainting
👍2
Forwarded from эйай ньюз
Я тут пересобрал для вас новый колаб для DiffBIR на базе последних коммитов из оф. репы: можете попробовать тут.
Нужен Colab Pro, т.к. в 12 GB оперативки не вместится.

Метод действительно работает, но не на всех видах деформаций. Опять начерепикали в статье...🌚 Но все же лучше чем real-ESRGAN.

Попугая нормально восстановило. А вот мем "смекалочка" не хотел восстанавливаться в нормальное лицо, пока я вручную не добавил промпт и CFG.

Пикселизованное 8-битное лицо, например, вообще отказалось превращаться в нормальное - видимо, метод не считает это за corruption, и думает что это часть композиции.

Боюсь, что многие универсальные восстановители изображений (а BirDIFF заявлялся одним из таких) будут страдать от того, что некоторые поврежедния будут считать частью оригинальной картинки.

Специализированные же методы, конечно, будут давать лучшие результаты если применять их в том же домене, на котором они и были обучены.

@ai_newz
👍6
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing

Генрация изображений по тексту, с заданным объектом, стилем. Понимает заданные объекты на изображении без дообучения. Впрочем, с небольшим дообучением понимает еще лучше - меньше 80 шагов.
Фичи: замена, встраивание объекта, смешивание, интерполяция, перенос стиля. Поддерживает #ControlNet
На сайте есть интерактивные демки, можно потыркать

Код
Плагин для Blender

#text2image #image2image #styletransfer
👍31
Forwarded from Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит

Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.

Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.

В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.

Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.

OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.

Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Getty Images разродились своим обещанным генератором картинок с искрометным названием Generative AI, обученным на полностью лицензионном датасете. Там можно запросить демо доступ. Не знаю что еще сказать. А, название клевое

#text2image
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections

Генератор открытых 3D-сцен по набору исходных изображений. Видимо, специализируется на ландшафтах. Умеет интерполировать стиль

Код
Демо

#image2scene #imageto3D
Media is too big
VIEW IN TELEGRAM
Spotify запустил пилотную программу ИИ-дубляжа подкастов. Пока только на испанский, французский и немецкий языки.
Под капотом технологии OpenAI, на выходе сохраняется естественный голос оригинального диктора.
Магия будет доступна пользователям премиум-класса бесплатно по всему миру.

#dubbing #voicecloning #speech2speech #localization #podcast
🔥1
BulkCorrector

Ошибок исправлятор. Орфографических и грамматических.
На бесплатном тарифе максимальный объем документа 32000 знаков.
Понадобится ваш API ключ OpenAI.

Похоже, нет поддержки русского языка

Попробовать
Producthunt

#text2text #tools #textediting