Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Psy Eyes (Andrey Bezryadin)
ControlNet без промта — UnpromtedControl

Этим инструментом можно восстанавливать и удалять объекты просто выделяя их мышкой.

При восстановлении картинки: если изначально не все трещины/проблемные места определятся, можно вручную набросать и уточнить маску для достижения лучших результатов.

При удалении объектов из кадра: чтобы достичь хороших результатов выделите в маске не только элемент, который хотите удалить, но и его тень.

Если не охота заморачиваться установкой локально, есть демо на колабе. Заходим в верхнем меню в Runtime — Run all, и когда все установки завершатся у вас будет две ссылки: одна для локального запуска, другая для публичного на Gradio. Обе активны в течение 72 часов, потом если что можно перезапустить.

Попробовал вариант с Gradio и работает довольно хорошо.

ГитхабДемо
🔥1
👾 Мы DeepFloyd (Research AI Lab at StabilityAI) зарелизили лучшую Text-to-Image модель DeepFloyd IF

DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google:
— Текст кодируется T5 XXL v1.1
— Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64
— IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5
— Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4

Благодаря тому, что:
— Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF
— Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2

🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще!

💻 Сайт лабы DeepFloyd
🤖 Страница нейроки DeepFloyd IF
👽 DeepFloyd Дискорд

🖥 GitHub
🤗 HuggingFace

👾 Генерить тут: Demo 👈
👍1
Ленин - гриб

Что-то все какое-то кислотное получается. В колабе негативного промта нет. Спейс на HF не вывозит

А у вас какие успехи?

#IF #neuronaut_art
То ли дело Stable Diffusion.
Подозреваю, для #IF нужна ученая степень в промт-инжиниринге

#neuronaut_art
Кроме шуток, есть такой курс от Эндрю Нг, профессора Стэнфорда, соучредителя и бывшего руководителя Google Brain. Если что, этот тот человек, чей курс по Deep Learning держится топе Coursera уже много лет. OpenAI тоже приняла участие при разработке курса. Учат промпт инженерингу – включая промпт-программирование, это когда LLM учат использовать инструменты вроде плагинов и других API.

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
👍3
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
🦿Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model

Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.

Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.

Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.

❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами

@ai_newz
🔥31
AUTOMATIC1111 обновился до версии 1.1.0

Features:

- switch to torch 2.0.0 (except for AMD GPUs)
- visual improvements to custom code noscripts
- add filename patterns: [clip_skip], [hasprompt<>], [batch_number], [generation_number]
- add support for saving init images in img2img, and record their hashes in infotext for reproducability
- automatically select current word when adjusting weight with ctrl+up/down
- add dropdowns for X/Y/Z plot
- setting: Stable Diffusion/Random number generator source: makes it possible to make images generated from a given manual seed consistent across different GPUs
- support Gradio's theme API
- use TCMalloc on Linux by default; possible fix for memory leaks
- (optimization) option to remove negative conditioning at low sigma values #9177
- embed model merge metadata in .safetensors file
- extension settings backup/restore feature #9169
- add "resize by" and "resize to" tabs to img2img
- add option "keep original size" to textual inversion images preprocess
- image viewer scrolling via analog stick
- button to restore the progress from session lost / tab reload
Minor:

- gradio bumped to 3.28.1
- in extra tab, change extras "scale to" to sliders
- add labels to tool buttons to make it possible to hide them
- add tiled inference support for ScuNET
- add branch support for extension installation
- change linux installation noscript to insall into current directory rather than /home/username
- sort textual inversion embeddings by name (case insensitive)
- allow styles.csv to be symlinked or mounted in docker
- remove the "do not add watermark to images" option
- make selected tab configurable with UI config
- extra networks UI in now fixed height and scrollable
- add disable_tls_verify arg for use with self-signed certs
Extensions:

- Add reload callback
- add is_hr_pass field for processing
Bug Fixes:

- fix broken batch image processing on 'Extras/Batch Process' tab
- add "None" option to extra networks dropdowns
- fix FileExistsError for CLIP Interrogator
- fix /sdapi/v1/txt2img endpoint not working on Linux #9319
- fix disappearing live previews and progressbar during slow tasks
- fix fullscreen image view not working properly in some cases
- prevent alwayson_noscripts args param resizing noscript_arg list when they are inserted in it
- fix prompt schedule for second order samplers
- fix image mask/composite for weird resolutions #9628
- use correct images for previews when using AND (see #9491)
- one broken image in img2img batch won't stop all processing
- fix image orientation bug in train/preprocess
- fix Ngrok recreating tunnels every reload
- fix --realesrgan-models-path and --ldsr-models-path not working
- fix --skip-install not working
- outpainting Mk2 & Poorman should use the SAMPLE file format to save images, not GRID file format
- do not fail all Loras if some have failed to load when making a picture
Вдогонку к апдейту Автоматик1111 - мод интерфейса. Более человечный. Но придется немного перепривыкнуть если вы уже привыкли к web-ui. Устанавливается из вкладки Install from URL
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs научилась переводить вашу речь на другой язык с сохранением голоса и интонаций
👍9🔥2
Я плохо понимаю по китайски, но похоже что Tencent запускает фабрику цифровых людей.

Приложение компании — DFaaS позволяет создавать дипфейки используя всего 3 минуты живого видео, 100 произнесённых фраз и $145. А готовый результат будет через сутки.
👍1
Media is too big
VIEW IN TELEGRAM
SD в качестве фильтра вебкамеры.
Стрим с камеры через TouchDesigner в режиме реального времени на стабильный Diffusion img2img. Повышение скорости с помощью фреймворка Meta AITemplate
Около 0.5-0.6 c на рендер одного кадра на 3090 ti

реддит
👍2