Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Чистый, без примесей, text-to-3D!
Коль скоро Epic Games до сих пор выясняет этичность использования ИИ, кто-то должен был сделать ИИ-Метахьюмана!
Мне написал Макс П. из Synthesis AI и пригнал вот такую новость.
Synthesis AI, стартап из Сан-Франциско, специализирующийся на производстве синтетических данных, сегодня объявил, что разработал новый способ создания реалистичных ТРЕХМЕРНЫХ цифровых людей из текстовых подсказок.
Компания анонсирует, что ее новая технология преобразования текста в 3D, использует "пайплайны генеративного искусственного интеллекта и визуальных эффектов для создания цифровых людей с высоким разрешением кинематографического качества, которые можно использовать для различных приложений, таких как как игры, виртуальная реальность, фильмы и симуляторы".
Ну и дело не столько в качестве, а в подходе. Кто-то наконец-то сделал брутфорсный тренинг моделей на классических полигональных сетках, без всяких нерфов, 2Д-проекций, читов в духе kaedim и вот этого вот всего. На выходе реальные текстурированные 3Д-меши.
Synthesis AI сделала собственные модели, используя генеративные архитектуры на основе диффузии для создания разнообразного набора сеток, которые регулируются критическими параметрами, такими как пол, возраст, этническая принадлежность и пр. Слои текстур создаются с использованием отдельной(!) генеративной модели, которая обеспечивает детальное независимое управление(!)
Комплексная 3D-модель с высоким разрешением создается путем слияния этих двух основных компонентов.
В общем это такой ИИ-Метахьюман с голосовым(текстовым) управлением (хотя управление слайдерами тоже есть).
Еще раз - на выходе чистое, рафинированное, генетически немодифицированное 3Д!
Synthesis AI специализируется на синтетических данных, поэтому немудрено, что собственная библиотека Synthesis AI, содержащая более 100 тысяч цифровых людей, является базовыми данными, используемыми для обучения моделей. Другие продукты компании, Synthesis Humans и Synthesis Scenarios, уже используют эту библиотеку для решения задач компьютерного зрения с размеченными данными для поддержки разработки возможностей идентификации лиц, мониторинга водителей, аватаров и многого другого.
В общем, наконец-то кто-то обГАНил (обдиффузил) полигональные 3Д-сетки, пусть на определенном, но очень востребованном классе объектов - кожаные головы.
Это только начало, цитирую: "сочетая генеративный ИИ с пайплайнами кинематографических визуальных эффектов, компании смогут синтезировать мир, включая людей, окружающую среду и объекты".
Мы с Максом обсудили дальнейшее обГАНИвание 3Д, а я срочно записался в бету, благо есть административный ресурс влияния. Макс неоднократно зажигал у меня на Ивенте, а психоделические посиделки в киевском "Любимом дяде" с Дэном и Максом до сих пор оказывают на меня влияние.
https://venturebeat.com/ai/synthesis-ai-debuts-text-to-3d-technology-for-cinematic-quality-digital-human-synthesis/
Коль скоро Epic Games до сих пор выясняет этичность использования ИИ, кто-то должен был сделать ИИ-Метахьюмана!
Мне написал Макс П. из Synthesis AI и пригнал вот такую новость.
Synthesis AI, стартап из Сан-Франциско, специализирующийся на производстве синтетических данных, сегодня объявил, что разработал новый способ создания реалистичных ТРЕХМЕРНЫХ цифровых людей из текстовых подсказок.
Компания анонсирует, что ее новая технология преобразования текста в 3D, использует "пайплайны генеративного искусственного интеллекта и визуальных эффектов для создания цифровых людей с высоким разрешением кинематографического качества, которые можно использовать для различных приложений, таких как как игры, виртуальная реальность, фильмы и симуляторы".
Ну и дело не столько в качестве, а в подходе. Кто-то наконец-то сделал брутфорсный тренинг моделей на классических полигональных сетках, без всяких нерфов, 2Д-проекций, читов в духе kaedim и вот этого вот всего. На выходе реальные текстурированные 3Д-меши.
Synthesis AI сделала собственные модели, используя генеративные архитектуры на основе диффузии для создания разнообразного набора сеток, которые регулируются критическими параметрами, такими как пол, возраст, этническая принадлежность и пр. Слои текстур создаются с использованием отдельной(!) генеративной модели, которая обеспечивает детальное независимое управление(!)
Комплексная 3D-модель с высоким разрешением создается путем слияния этих двух основных компонентов.
В общем это такой ИИ-Метахьюман с голосовым(текстовым) управлением (хотя управление слайдерами тоже есть).
Еще раз - на выходе чистое, рафинированное, генетически немодифицированное 3Д!
Synthesis AI специализируется на синтетических данных, поэтому немудрено, что собственная библиотека Synthesis AI, содержащая более 100 тысяч цифровых людей, является базовыми данными, используемыми для обучения моделей. Другие продукты компании, Synthesis Humans и Synthesis Scenarios, уже используют эту библиотеку для решения задач компьютерного зрения с размеченными данными для поддержки разработки возможностей идентификации лиц, мониторинга водителей, аватаров и многого другого.
В общем, наконец-то кто-то обГАНил (обдиффузил) полигональные 3Д-сетки, пусть на определенном, но очень востребованном классе объектов - кожаные головы.
Это только начало, цитирую: "сочетая генеративный ИИ с пайплайнами кинематографических визуальных эффектов, компании смогут синтезировать мир, включая людей, окружающую среду и объекты".
Мы с Максом обсудили дальнейшее обГАНИвание 3Д, а я срочно записался в бету, благо есть административный ресурс влияния. Макс неоднократно зажигал у меня на Ивенте, а психоделические посиделки в киевском "Любимом дяде" с Дэном и Максом до сих пор оказывают на меня влияние.
https://venturebeat.com/ai/synthesis-ai-debuts-text-to-3d-technology-for-cinematic-quality-digital-human-synthesis/
VentureBeat
Synthesis AI debuts high-resolution text-to-3D capabilities with synthesis labs
Via text-to-3D, Synthesis AI has developed a new way to build digital humans at a high level of quality and detail.
FaceLit: Neural 3D Relightable Faces
А вот и Apple подтянулась.
FaceLit генерирует 3D-лица из обычных фото. А в этих готовых 3D-портретах можно играться с освещением, меняя источник света.
Код
#relighting #image2face #imageto3D #image2avatar #3Davatar
А вот и Apple подтянулась.
FaceLit генерирует 3D-лица из обычных фото. А в этих готовых 3D-портретах можно играться с освещением, меняя источник света.
Код
#relighting #image2face #imageto3D #image2avatar #3Davatar
🔥2
Align your Latents:High-Resolution Video Synthesis with Latent Diffusion Models
Новое более лучшее #text2video от NVIDIA
Разрешение 1280 x 2048, 24 fps, по 113 кадров в каждом образце сгенеренного видео, то есть 4.7с. Могут и и длиннее, см внизу страницы
В основе модели - StableDiffusion c 4.1 млрд параметров, из которых только 2.7 млрд обучены на видео. То бишь, сия модель компактнее многих конкурентов.
Кода нет, демки нет. Разве оно не должно быть OpenSource?
#text2video
Новое более лучшее #text2video от NVIDIA
Разрешение 1280 x 2048, 24 fps, по 113 кадров в каждом образце сгенеренного видео, то есть 4.7с. Могут и и длиннее, см внизу страницы
В основе модели - StableDiffusion c 4.1 млрд параметров, из которых только 2.7 млрд обучены на видео. То бишь, сия модель компактнее многих конкурентов.
Кода нет, демки нет. Разве оно не должно быть OpenSource?
#text2video
🔥2
Восхитительно. Теперь можно будет смотреть фильмы с Козловским (сам понимаю что сморозил ерунду, на амазоне кому он нужен)
Forwarded from Denis Sexy IT 🤖
Новые интересные фичи в онлайн-кинотеатрах появляются редко, но вот эта от Amazon Prime клевая:
Помните ситуации, когда смотришь кино и в какой-то момент главные герои начинают перешептываться на фоне музыки и почти непонятно, что они там говорят друг другу?
В общем, теперь с помощью фичи AI Dialogue Boost звук диалогов будет повышаться когда это необходимо, чтобы можно было все расслышать, а фоновые звуки останутся с прежней громкостью.
Мелочь, а приятно, жду во всех приложениях.
Помните ситуации, когда смотришь кино и в какой-то момент главные герои начинают перешептываться на фоне музыки и почти непонятно, что они там говорят друг другу?
В общем, теперь с помощью фичи AI Dialogue Boost звук диалогов будет повышаться когда это необходимо, чтобы можно было все расслышать, а фоновые звуки останутся с прежней громкостью.
Мелочь, а приятно, жду во всех приложениях.
US About Amazon
Prime Video launches a new accessibility feature that makes it easier to hear dialogue in your favorite movies and series
Dialogue Boost is an innovation that lets you self-select dialogue volume levels to suit your needs on any device with Prime Video.
👍3
Forwarded from ЭйАйЛера
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно быстро приближаемся к разным инструментам для генерации последовательной анимации
Это тесты TomLikesRobots на Automatic1111 с расширением text2video, чистая генерация ИИ — никаких начальных изображений или видео.
Автор отмечает, что подсказки, которые хорошо работали в SD 1.5, похоже, хорошо работают с #modelscope например, в стиле артдеко, Альфонса Мухи.
Это тесты TomLikesRobots на Automatic1111 с расширением text2video, чистая генерация ИИ — никаких начальных изображений или видео.
Автор отмечает, что подсказки, которые хорошо работали в SD 1.5, похоже, хорошо работают с #modelscope например, в стиле артдеко, Альфонса Мухи.
❤2
Разработчики Stable Diffusion выпустили свой аналог ChatGPT под названием StableLM.
Уже выпущены базовые модели с 3B и 7B параметров, а в планах у компании еще 15B, 30B, 65B и 175B. В отличие от LLaMA, модели полностью обучены и готовы к использованию, при этом бесплатно и доступны всем желающим.
GitHub с инструкцией по запуску
#gpt #nlp #llm #chatbot
Уже выпущены базовые модели с 3B и 7B параметров, а в планах у компании еще 15B, 30B, 65B и 175B. В отличие от LLaMA, модели полностью обучены и готовы к использованию, при этом бесплатно и доступны всем желающим.
GitHub с инструкцией по запуску
#gpt #nlp #llm #chatbot
👍6
Audio
Bark — модель преобразования текста в аудио с упором на создании крайне реалистичной речи, а также других аудиофайлов, включая музыку, фоновый шум и простые звуковые эффекты
Модель также может производить невербальные коммуникации, такие как смех, вздохи и плач
Код
#text2audio #tts
Модель также может производить невербальные коммуникации, такие как смех, вздохи и плач
Код
#text2audio #tts
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
NeAI: A Pre-convoluted Representation forPlug-and-Play Neural Ambient Illumination
Новый шаг на пути интеграции #nerf в CG пайплайн.
Насколько я понял из беглого знакомства с проектом, они используют nerf в качестве продвинутой HDRI для освещения традиционных 3D объектов. Классическое HDRI освещение не позволяет учитывать расстояние от освещаемого объекта до точки, запеченной на HDRI. Во многих случаях это связано с попоболью. А тут боги нейросетей принесли нам решение.
Код обещают выложить
Новый шаг на пути интеграции #nerf в CG пайплайн.
Насколько я понял из беглого знакомства с проектом, они используют nerf в качестве продвинутой HDRI для освещения традиционных 3D объектов. Классическое HDRI освещение не позволяет учитывать расстояние от освещаемого объекта до точки, запеченной на HDRI. Во многих случаях это связано с попоболью. А тут боги нейросетей принесли нам решение.
Код обещают выложить
👍1
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway открыли доступ к GEN-2 в дискорде.
1) Идём в любой #generate тред
2) Вбиваем @GEN2 и дальше текстовый запрос. Либо картинка + промт.
Можно применять параметры для большего контроля над выходным изображением. Ловите гайд по расширенным настройкам.
Плюс: инфа как получать результаты близкие к оригиналу по структуре, и удивить себя результатами отдалённо похожими на оригинал.
Промт:
1) Идём в любой #generate тред
2) Вбиваем @GEN2 и дальше текстовый запрос. Либо картинка + промт.
Можно применять параметры для большего контроля над выходным изображением. Ловите гайд по расширенным настройкам.
Плюс: инфа как получать результаты близкие к оригиналу по структуре, и удивить себя результатами отдалённо похожими на оригинал.
Промт:
a cat at the stage of the music festivalThis media is not supported in your browser
VIEW IN TELEGRAM
GEN-2
Он не знает Дарт Вейдера и штурмовиков, не знает Мир Уэйна. Жаль.
Но как круто выглядит для генеративного видео!
Darth Vader and stormtroopers sitting in a car and outrageously rocking their heads listening to the Bohemian rhapsody in a scene from the Wayne world movie -- upscale
Он не знает Дарт Вейдера и штурмовиков, не знает Мир Уэйна. Жаль.
Но как круто выглядит для генеративного видео!
Darth Vader and stormtroopers sitting in a car and outrageously rocking their heads listening to the Bohemian rhapsody in a scene from the Wayne world movie -- upscale
This media is not supported in your browser
VIEW IN TELEGRAM
Несколько новостей про #nerf
Reference-guided Controllable Inpainting of Neural Radiance Fields
Инпейнтинг нерфов, кода нет
#nerf #inpainting
Reference-guided Controllable Inpainting of Neural Radiance Fields
Инпейнтинг нерфов, кода нет
#nerf #inpainting
This media is not supported in your browser
VIEW IN TELEGRAM
Nerfbusters: Removing Ghostly Artifacts from Casually Captured NeRFs
Чистка #nerf от специфических облачков-артефактов
Код
Чистка #nerf от специфических облачков-артефактов
Код
👍1
Media is too big
VIEW IN TELEGRAM
Tetra-NeRFRepresenting Neural Radiance Fields Using Tetrahedra
Тетраэдральное представление #nerf. Вместо облака точек и вокселей - тетраэдры. Зачем? Так лучше
Код
Демо посмотреть
Тетраэдральное представление #nerf. Вместо облака точек и вокселей - тетраэдры. Зачем? Так лучше
Код
Демо посмотреть
Learning Neural Duplex Radiance Fields for Real-Time View Synthesis
Обычно в #nerf используется много слоев и тонны вычислений чтобы показать вам картинку. А тут придумали как запихнуть все в два слоя, да и после этого еще ускорить.
Демо посмотреть
Кода нет
Обычно в #nerf используется много слоев и тонны вычислений чтобы показать вам картинку. А тут придумали как запихнуть все в два слоя, да и после этого еще ускорить.
Демо посмотреть
Кода нет
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation
Это нам надо. Интерполяция кадров. Иначе говоря, слоумоушен.
Код
Демо
Колаб
#frameinterpolation #slowmotion
Это нам надо. Интерполяция кадров. Иначе говоря, слоумоушен.
Код
Демо
Колаб
#frameinterpolation #slowmotion
🔥3❤1