Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
StreamingT2V готовит обновку, показали в твиттере сравнение с Luma.
длинные 2-минутные видео, 1200 кадров

#text2video
👍13
Media is too big
VIEW IN TELEGRAM
Video-Infinity

Еще генератор видео. Качество 🫤
Зато быстрый как понос.
Способен создавать 2300 кадров видео за 5 минут за счет использования нескольких GPU. В 100 раз быстрее конкурентов

Код

#text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7😁2
This media is not supported in your browser
VIEW IN TELEGRAM
LongVA

Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.

Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.

Гитхаб
Демо

#summary #VLM #video2text
👍5👀2😁1
AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation

Мультиагентная платформу для многократной генерации повторяющихся персонажей, не требующая обучения.
Та самая консистентность персонажей, но какой ценой.

AutoStudio использует три агента на основе больших языковых моделей (#LLM) для управления взаимодействиями, а также агент на основе стабильной диффузии (SD) для генерации высококачественных изображений

Уже совместимо с SD1.5 и SDXL.
ConmyUI на подходе

Код

#personalization #consisency #text2image
👍111
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Срыв покровов. Это внутрянка Rodin Gen-1

ControlNet и LoRA управляют изображением, вокселями облаком точек и баундинг боксом

Обещают релизнуть плагин для блендера

Код ждем
Демо

#imageto3D #tetxtto3D #text2scene #realtime
🔥6👍2
Media is too big
VIEW IN TELEGRAM
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Генератор карт глубины для 360-градусных панорам.
Скажем, есть у вас HDRI с площадки. Приятно будет бесплатно получить еще и грубую модель локации?

Код ждем
Демо

#image2depth #panorama2depth
👍32
ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

Бустер разрешения для генеративных моделей, ограниченных небольшим разрешением

Код ждем

#text2imnage #highresolution
👍5👌21
Media is too big
VIEW IN TELEGRAM
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

генератор звуковых эффектов по видео. Можно добавлять текстовый промпт

Код ждем
Демо

#video2audio #video2sound
🔥9👍2
Forwarded from эйай ньюз
Тут появились бета-тесты GEN-3

Вот сравнение с Sora. Будто бы картинка от ClosedAI более реалистичная, но тоже не везде. А вот у GEN-3 лучше получаются люди. Но! К тому же видосы от Runway были взяты из маленькой выборки в 5!!! генераций на промпт, т.е. это не такой лютый черрипик, поэтому, например, на видосе с джипом какие-то траблы с дымкой.

Почему с доступом к Sora так медлят? Первая гипотеза – в США скоро выборы. Боятся дипфейков, лол. Вторая – возможно модель ещё сыровата, да и компьюта жрет убердохера – выйдет в очень большой минус, даже если дать доступ только платным пользователям.

А теперь вот runway со дня на день выпустит свою модельку, которая если не лучше, то не сильно хуже Sora. И судя по всему, не требует огромных промптов и часов рендера.

Даже как-то вау-эффекта нет, за полгода мозг уже привык к осознанию возможности генерации ТАКИХ видео на примерах других демок – китайцы, например, тоже радуют каждый месяц.

Давайте проведём голосование, что лучше на ваш взгляд:

GEN-3 > Sora 🔥
GEN-3 = Sora 🫡
GEN-3 < Sora 🦄

@ai_newz
💩9🔥4🤮2👨‍💻2😁1