Нейронавт | Нейросети в творчестве
Qwen-Edit-2509-Multiple-angles - изменение ракурса
Появился демоспейс лоры QIE для смены ракурса
С ней можно создавать видео по первому и последнему кадру если у вас нет последнего кадра. Например в WAN
Демо
#imageediting #lora #qie #novelview
С ней можно создавать видео по первому и последнему кадру если у вас нет последнего кадра. Например в WAN
Демо
#imageediting #lora #qie #novelview
👍13🔥3
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
Система одновременной генерации аудио и видео / оживлятор портретов / липсинк
— генерирует аудио и видео с хорошей синхронизацией
— создаёт контент на основе изображения, описания и речи
— учитывает тембр с помощью референсного аудио
— продолжает и озвучивает видео, синтезирует видео по аудио.
В качестве базовой модели для видеоветви используется Wan 2.2-5B, а для аудиоветви — архитектурный шаблон Wan 2.1-1.3B
На видео с девушкой - это реальное видео и видео с догенеренной концовкой
Кода нет
#chracteranimation #lipsync #portraitanimation #video2video #speech2video #talkinghead
Система одновременной генерации аудио и видео / оживлятор портретов / липсинк
— генерирует аудио и видео с хорошей синхронизацией
— создаёт контент на основе изображения, описания и речи
— учитывает тембр с помощью референсного аудио
— продолжает и озвучивает видео, синтезирует видео по аудио.
В качестве базовой модели для видеоветви используется Wan 2.2-5B, а для аудиоветви — архитектурный шаблон Wan 2.1-1.3B
На видео с девушкой - это реальное видео и видео с догенеренной концовкой
Кода нет
#chracteranimation #lipsync #portraitanimation #video2video #speech2video #talkinghead
👍7🔥6
Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
Генератор 3d моделей с большим числом степеней свободы (DoF) по изображению или тексту от Deemostech
Отличается от других 3D генераторов тем, что решает две ключевые задачи: определяет кинематическую структуру сложных объектов и вычисляет параметры соединений, используя статическую геометрию.
Кода разумеется нет, но есть демо
Демо
#3d #textto3d #IMAGETO3D
Генератор 3d моделей с большим числом степеней свободы (DoF) по изображению или тексту от Deemostech
Отличается от других 3D генераторов тем, что решает две ключевые задачи: определяет кинематическую структуру сложных объектов и вычисляет параметры соединений, используя статическую геометрию.
Кода разумеется нет, но есть демо
Демо
#3d #textto3d #IMAGETO3D
🔥6👍2
Kimi K2 Thinking
Новый агент от Moonshot использует инструменты для пошагового рассуждения.
Контекст 256к
— решает сложные задачи, выполняя до 200–300 последовательных вызовов инструментов без участия человека
— справляется с задачами, требующими глубокого анализа и структурированного рассуждения, например, решает математические задачи PhD-уровня
— эффективно ищет и анализирует информацию в интернете, превосходя человеческие показатели в BrowseComp
— пишет тексты — академические, исследовательские, художественные, — делая их логичными, содержательными и богатыми по форме
— помогает в кодировании и разработке ПО, выполняя многоэтапные рабочие процессы
— реагирует на личные и эмоциональные вопросы с эмпатией и балансом, предлагая взвешенные советы.
Доступен на kimi.com с ограниченным набором инструментов. Полный набор возможностей обещают скоро.
A также по API
#agent #assistant #reasoning
Новый агент от Moonshot использует инструменты для пошагового рассуждения.
Контекст 256к
— решает сложные задачи, выполняя до 200–300 последовательных вызовов инструментов без участия человека
— справляется с задачами, требующими глубокого анализа и структурированного рассуждения, например, решает математические задачи PhD-уровня
— эффективно ищет и анализирует информацию в интернете, превосходя человеческие показатели в BrowseComp
— пишет тексты — академические, исследовательские, художественные, — делая их логичными, содержательными и богатыми по форме
— помогает в кодировании и разработке ПО, выполняя многоэтапные рабочие процессы
— реагирует на личные и эмоциональные вопросы с эмпатией и балансом, предлагая взвешенные советы.
Доступен на kimi.com с ограниченным набором инструментов. Полный набор возможностей обещают скоро.
A также по API
#agent #assistant #reasoning
🔥4
Forwarded from Spark in me
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
6️⃣ Ставить модель можно через
7️⃣ Скрутили дебафф из
Список новых флагов:
Минимальный пример буквально:
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
v3 и в 1.5 - 2 раза быстрее v4;2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
aidar, baya, kseniya, xenia, eugene;6️⃣ Ставить модель можно через
torch.hub, тупо выкачав локально, через pip;7️⃣ Скрутили дебафф из
v4;Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
Минимальный пример буквально:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
CamCloneMaster: Enabling Reference-based Camera Control via Context without Explicit 3D Estimation
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
Клонирование движения камеры на видеогенерации от авторов Kling.
Работает как на генерации по изображению, так и по видео.
На демонстрационных видео результаты с закрытоого видеогенератора. В гитхабе метод прикручен к Wan 2.1, входное разрешение 480x832.
Код
HF
Kijai
#cameracontrol #text2video #video2video #image2video
👍10🔥2