Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Адобченко поднимает веки и медленно спускается с горы.

Я вот читаю анонсы предстоящего NAB 2023 и вижу, что кроме Adobe, все крупные игроки (Максон, Автодеск, Сайды, Фаундри) сидят в танке по поводу генеративного ИИ. Просто молчат.
А вот Адобченко вчера пульнул протокол о намерениях встроить ИИ во все, что шевелится, то есть не только в статичные картинки, но и в монтаж, композ и все, что связано с видео, кино и анимацией.

Список фич впечатляет, и это не просто еще один способ генерить веселые пиксели, а именно видение проступающих из диффузионного шума пайплайнов.

1. Колоркоррекция видео голосом. Цитирую: «Сделайте эту сцену теплой и привлекательной». Не шутка, кнопка сделай красиво уже здесь.

2. Про логосы и шрифты я уже писал, когда тестировал FireFly. Теперь все это хозяйство можно будет анимировать. Не думаю, что это будет дефорумная покадровая анимация. Скорее псевдо-3Д в афтере.

3. Бомба: ИИ-преобразование сценария в текст для автоматического создания раскадровок и превизов! Без комментариев.

4. Автоматическая нарезка B-Roll-ов для чернового или окончательного монтажа! (это как бы визуальные перебивки, которые (тостуемый) монтажер вставляет поверх основного видеоряда).

5. Прошенный советчик. Который расскажет, что не надо отрезать ноги, и объяснит за "восьмерки". С ним можно будет поговорить за (цитирую) "процессы от первоначального видения до создания и редактирования".

6. Генерация музыки! Пользователи "могут легко создавать бесплатные пользовательские звуки и музыку, чтобы отразить определенное чувство или сцену как для временных, так и для финальных треков".

Когда? В конце года.
Огромная, жирная, красная кнопка.
"Сделать зашибись и в ТикТок!".
https://blog.adobe.com/en/publish/2023/04/17/reimagining-video-audio-adobe-firefly

RunwayML такой, задумчиво почесывая затылок: "за сколько будем продавацца?"
🔥2🤔21
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2 сгенерировал карту высот крон деревьев в масштабе меньше метра

DINOv2 представляет собой модель компьютерного зрения, использующую самообучение для достижения результатов, которые превосходят стандартные подходы (судя по релизу).

Meta AI в сотрудничестве с The Global Restoration Initiative использовали DINOv2 для оценки высоты кроны деревьев по всему миру. Для этого ему скормили спутниковые данные и данные лидеров.

Картирование растительности имеет большое значение для понимания углеродного цикла. Структура леса может быть пространственно неоднородной, и оценка высоты и площади кроны позволяют наблюдать деградацию существующих лесов, естественное лесовосстановление, или внедрение устойчивых методов ведения сельского хозяйства.

Статья
👏1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Чистый, без примесей, text-to-3D!

Коль скоро Epic Games до сих пор выясняет этичность использования ИИ, кто-то должен был сделать ИИ-Метахьюмана!

Мне написал Макс П. из Synthesis AI и пригнал вот такую новость.

Synthesis AI, стартап из Сан-Франциско, специализирующийся на производстве синтетических данных, сегодня объявил, что разработал новый способ создания реалистичных ТРЕХМЕРНЫХ цифровых людей из текстовых подсказок.

Компания анонсирует, что ее новая технология преобразования текста в 3D, использует "пайплайны генеративного искусственного интеллекта и визуальных эффектов для создания цифровых людей с высоким разрешением кинематографического качества, которые можно использовать для различных приложений, таких как как игры, виртуальная реальность, фильмы и симуляторы".

Ну и дело не столько в качестве, а в подходе. Кто-то наконец-то сделал брутфорсный тренинг моделей на классических полигональных сетках, без всяких нерфов, 2Д-проекций, читов в духе kaedim и вот этого вот всего. На выходе реальные текстурированные 3Д-меши.

Synthesis AI сделала собственные модели, используя генеративные архитектуры на основе диффузии для создания разнообразного набора сеток, которые регулируются критическими параметрами, такими как пол, возраст, этническая принадлежность и пр. Слои текстур создаются с использованием отдельной(!) генеративной модели, которая обеспечивает детальное независимое управление(!)

Комплексная 3D-модель с высоким разрешением создается путем слияния этих двух основных компонентов.

В общем это такой ИИ-Метахьюман с голосовым(текстовым) управлением (хотя управление слайдерами тоже есть).

Еще раз - на выходе чистое, рафинированное, генетически немодифицированное 3Д!

Synthesis AI специализируется на синтетических данных, поэтому немудрено, что собственная библиотека Synthesis AI, содержащая более 100 тысяч цифровых людей, является базовыми данными, используемыми для обучения моделей. Другие продукты компании, Synthesis Humans и Synthesis Scenarios, уже используют эту библиотеку для решения задач компьютерного зрения с размеченными данными для поддержки разработки возможностей идентификации лиц, мониторинга водителей, аватаров и многого другого.

В общем, наконец-то кто-то обГАНил (обдиффузил) полигональные 3Д-сетки, пусть на определенном, но очень востребованном классе объектов - кожаные головы.

Это только начало, цитирую: "сочетая генеративный ИИ с пайплайнами кинематографических визуальных эффектов, компании смогут синтезировать мир, включая людей, окружающую среду и объекты".

Мы с Максом обсудили дальнейшее обГАНИвание 3Д, а я срочно записался в бету, благо есть административный ресурс влияния. Макс неоднократно зажигал у меня на Ивенте, а психоделические посиделки в киевском "Любимом дяде" с Дэном и Максом до сих пор оказывают на меня влияние.


https://venturebeat.com/ai/synthesis-ai-debuts-text-to-3d-technology-for-cinematic-quality-digital-human-synthesis/
FaceLit: Neural 3D Relightable Faces
А вот и Apple подтянулась.

FaceLit генерирует 3D-лица из обычных фото. А в этих готовых 3D-портретах можно играться с освещением, меняя источник света.

Код

#relighting #image2face #imageto3D #image2avatar #3Davatar
🔥2
Align your Latents:High-Resolution Video Synthesis with Latent Diffusion Models

Новое более лучшее #text2video от NVIDIA
Разрешение 1280 x 2048, 24 fps, по 113 кадров в каждом образце сгенеренного видео, то есть 4.7с. Могут и и длиннее, см внизу страницы

В основе модели - StableDiffusion c 4.1 млрд параметров, из которых только 2.7 млрд обучены на видео. То бишь, сия модель компактнее многих конкурентов.

Кода нет, демки нет. Разве оно не должно быть OpenSource?

#text2video
🔥2
Восхитительно. Теперь можно будет смотреть фильмы с Козловским (сам понимаю что сморозил ерунду, на амазоне кому он нужен)
Forwarded from Denis Sexy IT 🤖
Новые интересные фичи в онлайн-кинотеатрах появляются редко, но вот эта от Amazon Prime клевая:

Помните ситуации, когда смотришь кино и в какой-то момент главные герои начинают перешептываться на фоне музыки и почти непонятно, что они там говорят друг другу?

В общем, теперь с помощью фичи AI Dialogue Boost звук диалогов будет повышаться когда это необходимо, чтобы можно было все расслышать, а фоновые звуки останутся с прежней громкостью.

Мелочь, а приятно, жду во всех приложениях.
👍3
Forwarded from ЭйАйЛера
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно быстро приближаемся к разным инструментам для генерации последовательной анимации

Это тесты TomLikesRobots на Automatic1111 с расширением text2video, чистая генерация ИИ — никаких начальных изображений или видео.

Автор отмечает, что подсказки, которые хорошо работали в SD 1.5, похоже, хорошо работают с #modelscope например, в стиле артдеко, Альфонса Мухи.
2
Разработчики Stable Diffusion выпустили свой аналог ChatGPT под названием StableLM.

Уже выпущены базовые модели с 3B и 7B параметров, а в планах у компании еще 15B, 30B, 65B и 175B. В отличие от LLaMA, модели полностью обучены и готовы к использованию, при этом бесплатно и доступны всем желающим.

GitHub с инструкцией по запуску

#gpt #nlp #llm #chatbot
👍6
Audio
Bark — модель преобразования текста в аудио с упором на создании крайне реалистичной речи, а также других аудиофайлов, включая музыку, фоновый шум и простые звуковые эффекты

Модель также может производить невербальные коммуникации, такие как смех, вздохи и плач

Код

#text2audio #tts
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
NeAI: A Pre-convoluted Representation forPlug-and-Play Neural Ambient Illumination

Новый шаг на пути интеграции #nerf в CG пайплайн.
Насколько я понял из беглого знакомства с проектом, они используют nerf в качестве продвинутой HDRI для освещения традиционных 3D объектов. Классическое HDRI освещение не позволяет учитывать расстояние от освещаемого объекта до точки, запеченной на HDRI. Во многих случаях это связано с попоболью. А тут боги нейросетей принесли нам решение.

Код обещают выложить
👍1
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway открыли доступ к GEN-2 в дискорде.

1) Идём в любой #generate тред

2) Вбиваем @GEN2 и дальше текстовый запрос. Либо картинка + промт.

Можно применять параметры для большего контроля над выходным изображением. Ловите гайд по расширенным настройкам.

Плюс: инфа как получать результаты близкие к оригиналу по структуре, и удивить себя результатами отдалённо похожими на оригинал.

Промт:
a cat at the stage of the music festival
This media is not supported in your browser
VIEW IN TELEGRAM
GEN-2

Он не знает Дарт Вейдера и штурмовиков, не знает Мир Уэйна. Жаль.

Но как круто выглядит для генеративного видео!

Darth Vader and stormtroopers sitting in a car and outrageously rocking their heads listening to the Bohemian rhapsody in a scene from the Wayne world movie -- upscale
Не мое.
затер ингридиенты на всякий случай
😁4