NEW BOT Телеграм, страница

lipsync-2-pro: studio-grade lipsync in minutes

Новая версия говорилки с липсинком от sync.so

Умеет клонировать голос, делает липсинк видео

В режиме Pro есть таймлиния

Бесплатного тарифа нет, но дают попробовать

Спасибо @m_franz

#lipsync #tts #text2speech #voicecloning

👍10

2.01K views06:09

Нейронавт | Нейросети в творчестве

lipsync-2-pro: studio-grade lipsync in minutes Новая версия говорилки с липсинком от sync.so Умеет клонировать голос, делает липсинк видео В режиме Pro есть таймлиния Бесплатного тарифа нет, но дают попробовать Спасибо @m_franz #lipsync #tts #text2speech…

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

😁11

1.72K views06:16

Нейронавт | Нейросети в творчестве

Обновки в #ComfyUI

Nano-banana via ComfyUI API Nodes!

Поддержка нанобанана через API nodes
———————————

Day-1 Support of Qwen-Image InstantX ControlNet

Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе

воркфлоу

Обновляем комфи и пользуемся

#imageediting #text2image #controlnet #workflow

❤4👍4

2.7K views07:11

Нейронавт | Нейросети в творчестве

MV-RAG: Retrieval Augmented Multiview Diffusion

Метод генерации 3D по тексту, который использует 2D-изображения в качестве ориентира для модели диффузии с несколькими видами.

Сначала находит в базе подходящие референсные изображения, затем генерирует разные ракурсы.

Авторы явно пишут что модель генерирует 3D объекты, при этом показывают новые ракурсы, а не 3D. Но ставим плюсик за то что проект заточен на реализм и согласованность изображений объектов, обычно редко встречающихся в датасетах.

Код

#novelview

🔥5❤1👍1

2.03K views08:11

Нейронавт | Нейросети в творчестве

Hermes 4

LLM на базе Llama-3.1-405B с гибридным режимом рассуждений от Nous Research

— избегает назидательности и подхалимства

— хорош в математике, программировании, STEM, логике, творческом письме и субъективных ответах

— обучен создавать валидный JSON по заданным схемам и исправлять некорректные объекты

— легче поддаётся управлению и выравниванию, имеет сниженные показатели отказа

— поддерживает вызовы функций и использование инструментов в рамках одного хода ассистента

— способен адаптироваться к дополнительным системным инструкциям, изменяя стиль, формат и подход к решению задач

— работает с разными форматами чата

— сохраняет воспоминания для использования в разных моделях

70B и 405B параметров. Есть полные и FP8 веса

Попробовать в чате - чат шикарный, с настройками, но GUI тормозной
HF

#assistant #chat

👍4

1.83K viewsedited 09:12

Нейронавт | Нейросети в творчестве

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Новая версия оживлятора от ByteDance, снова без кода

На вход подаем картинку и аудиозапись речи. На выходе - видео

Модель использует теорию когнитивного мышления «Система 1 и Система 2», объединяя мультимодальную языковую модель и диффузионный трансформер для имитации двух режимов мышления: медленного, обдуманного планирования и быстрого, интуитивного реагирования.

— согласует анимацию с ритмом, просодией и семантическим содержанием речи

— Контроль генерации, движения камеры и конкретных действий через текстовые промпты

— Умеет создавать мультиперсонажные сцены, сам распределяет аудиодорожки

Такое добро — и только посмотреть. Это так несправедливо. Какое несчастье 🤩

#lipsync #speech2video #characteranimation #portraitanimation #avatar #research

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10

2.03K views10:13

Нейронавт | Нейросети в творчестве

ComfyUI-VibeVoice

Ноды голосовой модели VibeVoice

воркфлоу

#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui

🔥11

2.88K views14:12

Нейронавт | Нейросети в творчестве

2... 1... 0... Wan2_2-S2V-14B_fp8_e4m3fn_scaled_KJ Забираем Wan-S2V, 18.5 Гб #image2video #audio2video #referencing #wan22

Квантизованный для простых смертных Wan2.2-S2V-14B

GGUF
воркфлоу

#gguf #workflow #image2video #audio2video #referencing #wan22

👍13🥴1

3.3K views14:47

Нейронавт | Нейросети в творчестве

Поделюсь рефералками

Фигню рекламировать самому было бы зашквар, делюсь тем чем доволен.

Т-мобайл. Пересел на него несколько лет назад и ни разу не пожалел. Трачу на связь вдвое меньше чем было там. Если подключитесь по моей ссылке, обещают закинуть денег на счет. А когда пополните на 500р - еще закинут вам и мне.

С экономией на связи есть нюанс, она максимальная с подпиской Pro в Т-банке. Подписка стоит 199 рублей в месяц, которые обычно покрываются кэшбеком. Ну и если закажете карту Black по моей ссылке, то и вам и мне дадут немного денег.

Вдруг кто собирался стать их клиентом — вам полезно, мне приятно.

👍11👎9❤3

2.25K views18:49

Нейронавт | Нейросети в творчестве

Опубликован код Uni3C - алибабаевского видеогенератора с контролем камеры и движения. Давно уже

Код

#image2video #cameracontrol #motioncontrol

0:05

Нейронавт | Нейросети в творчестве

Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Генератор видео по одной картинке от Alibaba.
С контролем камеры и движения человеков. Утверждают что именно контроль камеры и движение человеков у них лучше всех…

👍10

2.49K views06:13

Нейронавт | Нейросети в творчестве

1:16

Media is too big

VIEW IN TELEGRAM

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Генератор звука к видео с текстовыми подсказками от Hunyuan
По ссылке в заголовке тонна примеров

Офсайт
Код
HF
Демо

#foley #video2audio #video2sound #sfx #video2sfx

❤6👍1🔥1

3.54K views07:09

Нейронавт | Нейросети в творчестве

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation Генератор звука к видео с текстовыми подсказками от Hunyuan По ссылке в заголовке тонна примеров Офсайт Код HF Демо #foley #video2audio #video2sound…