Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Media is too big
VIEW IN TELEGRAM
MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting

Аниматор бипедов от Nvidia. Генерирует широкий спектр движений на различных поверхностях на основе интуитивно понятных пользовательских намерений.

Генерация движений всего тела на основе частичных целевых положений суставов, реагирование на управление джойстиком, взаимодействие с объектами, следование по траекториям, интерпретация текстовых команд и даже комбинирование этих возможностей, например, выполнение текстовых команд для следования по траекториям

Код

#text2animation #humananimation
👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Языковая модель для голосового общения. По русски не умеет.Может слышать и говорить, одновременно думая.

Код
Демо

#assistant #voiceassistant #speech
👍9
MIMO: Controllable Character Video Synthesis withSpatial Decomposed Modeling

Манипуляции с персонажем в полный рост на видео. Модель декомпозит исходное видео с применением карты глубины - на главного перса, задник и скрытую передним планом часть. Дальше можно заменить персонажа, задавать анимацию с другого видео или склетом, ... , профит

Код ждем

#video2video #humananimation #personalization
🔥152👍1
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

Еще одна модель создания 3D аватара по тексту на гауссианах. Управляется скелетом. Композится со сценами на гауссианах.

Код ждем

#text2avatar #text2gaussian #humanavatar
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
TalkinNeRF: Animatable Neural Fields forFull-Body Talking Humans

Продолжаем тему. Говорящие человеки на нерфах в полный рост. Кода нет. Ну и правильно, кому сейчас нужны эти нерфы

#talkinghuman #speech2nerf #nerf #humananimation
1
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
Llama-3.2

Новость погромче. На прошлой неделе вышла Llama-3.2, ее старшие версии 11B и 90B тоже мультимодальные.
Она уже есть на vision арене

Уже есть колаб ноутбук для дообучения и Instruct версия


Веса на HF
Демо (чат)
Демо Llama-3.2-11B-Vision-Instruct
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Очень нишевая штука
Стэнфордский университет представил новый подход к управлению двумя руками при физическом моделировании игры на гитаре.

Виртуальный гитарист играет по табам. Судя по видео, играет неправильно - оставляет пальцы левой руки только на тех струнах которые сейчас играет.

Код

#music2animation
🤯4👍2🔥2
awesome-denoiser

Коллекция звуковых денойзеров (шумодавов) в gradio интерфейсе

Код

#audiodenoise
👍6
ElevenLabs Video Dubbing Application

Gradio интерфейс для дубляжа видео через API Elevenlabs. Потребуется API токен.

Напоминаю, что Elevenlabs блокируют обслуживание российских клиентов, предположительно потребуется VPN

Код

#dubbing
👍3
TTS Generation WebUI

А тут агрегатор генераторов звука по тексту. Речь, музыка. Разложение музыки на стемы (отдельные партии) тоже есть

Код
Колаб

#tools #TTS #demucs #demix
👍10🔥2