IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.
На сайте много примеров.
поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов
Поддерживает английский и китайский
HF
Демо
Спасибо @m_franz
#voicecloning #text2speech #tts
Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.
На сайте много примеров.
поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов
Поддерживает английский и китайский
HF
Демо
Спасибо @m_franz
#voicecloning #text2speech #tts
🔥11👍3
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
Видеогенератор при участии Bytedance
— генерирует видео на основе текста, изображений и аудио
— удерживает идентичность и характеристики изображаемого субъекта
— синхронизирует видео с аудио
— позволяет варьировать результат с помощью текстовых промптов
В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper
выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1
Код
HF
#referencing #text2video #image2video #audio2video
Видеогенератор при участии Bytedance
— генерирует видео на основе текста, изображений и аудио
— удерживает идентичность и характеристики изображаемого субъекта
— синхронизирует видео с аудио
— позволяет варьировать результат с помощью текстовых промптов
В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper
выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1
Код
HF
#referencing #text2video #image2video #audio2video
👍7❤4🔥1
Нейронавт | Нейросети в творчестве
Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping Помните эти многообещающие методы редактирования перетаскиванием? Вот еще один, заявлена работа в рилтайме работает быстрее, чем FastDrag (в 14 раз) и DragDiffusion…
Кстати прошлогодний InstantDrag был опубликован,
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт
Код
Демо
#imageediting #drag
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт
Код
Демо
#imageediting #drag
👍6
SRPO: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой
Народ уже пилит кванты и выжимает лоры
Гитхаб
HF - 48Гб
bf16 и fp8
#text2image #fluxc
Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой
Народ уже пилит кванты и выжимает лоры
Гитхаб
HF - 48Гб
bf16 и fp8
#text2image #fluxc
1👍13❤1🔥1
Unlock a world of viewers with multi-language audio
В ближайшие недели YouTube запускает ИИ-дубляж видео на русский (и другие) язык для миллионов блогеров.
Всего будет доступно 30 языков. Переводит и озвучивает Gemini.
Яндекс-браузеру бояться!
#dubbing #news
В ближайшие недели YouTube запускает ИИ-дубляж видео на русский (и другие) язык для миллионов блогеров.
Всего будет доступно 30 языков. Переводит и озвучивает Gemini.
Яндекс-браузеру бояться!
#dubbing #news
blog.youtube
Unlock a world of viewers with multi-language audio
1👍14🔥7❤3
hunyuanimage-2.1 gguf
Кванты вчерашнего HunyuanImage-2.1
воркфлоу есть, но он неполноценный, пока нет рефайнера
#text2image #gguf #workflow
Кванты вчерашнего HunyuanImage-2.1
воркфлоу есть, но он неполноценный, пока нет рефайнера
#text2image #gguf #workflow
🔥10
Так народ!
Я нашел вам где бесплатно потестить Seedream 4.0
Вот порядок действий:
1. Прячемся за три буквы (Польша подходит)
2. Идем на https://yupp.ai/
3. Choose models - выбираем Seedream 4.0 и Nano-Banana. Seedream будет со значком доллара - "платный" - все равно выбираем.
5. Пишем промпт, получаем результат.
6. Голосуем и даем фидбек.
7. Появляется купон - стираем мышкой защитный слой и получаем рандомное количество кредитов. И за каждый фидбек опять могут подарить кредиты.
8. В какой-то момент вас попросят заполнить анкету прежде чем дадут погенерить.
9. Результаты можно отправить наБатл Сидрим-Банана
10. Посылаем админу в карму лучи добра, по желанию - звезды, машины, квартиры.
11. Если где-то запостите эту инфу, помяните добрым словом этот канал 🥰
По мне, банан лучше слушается и делает красивее
#text2image
Я нашел вам где бесплатно потестить Seedream 4.0
Вот порядок действий:
2. Идем на
3. Choose models - выбираем Seedream 4.0 и Nano-Banana. Seedream будет со значком доллара - "платный" - все равно выбираем.
5. Пишем промпт, получаем результат.
6. Голосуем и даем фидбек.
7. Появляется купон - стираем мышкой защитный слой и получаем рандомное количество кредитов. И за каждый фидбек опять могут подарить кредиты.
8. В какой-то момент вас попросят заполнить анкету прежде чем дадут погенерить.
9. Результаты можно отправить на
10. Посылаем админу в карму лучи добра, по желанию - звезды, машины, квартиры.
11. Если где-то запостите эту инфу, помяните добрым словом этот канал 🥰
По мне, банан лучше слушается и делает красивее
#text2image
🔥15👍5💯3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Ebsynth V2
Веб-версия легендарного инструмента для так скажем замены текстур на видео. Изменяем что-нибудь в одном кадре любыми доступными средствами. Отдаем это Ebsynth, и он по векторам движения шевелит наш кадр на всем видео.
В веб-версии появилась таймлиния с ключевыми кадрами, рисовалка, удобное управление ключевыми кадрами. И встроенный генератор по изображению с контролнетом
На бесплатном тарифе разрешение ограничено 720p, ограничено количество генрации ключевых кадров, нет экспорта в PNG.
Туториал
#matchmoving #video2video
Веб-версия легендарного инструмента для так скажем замены текстур на видео. Изменяем что-нибудь в одном кадре любыми доступными средствами. Отдаем это Ebsynth, и он по векторам движения шевелит наш кадр на всем видео.
В веб-версии появилась таймлиния с ключевыми кадрами, рисовалка, удобное управление ключевыми кадрами. И встроенный генератор по изображению с контролнетом
На бесплатном тарифе разрешение ограничено 720p, ограничено количество генрации ключевых кадров, нет экспорта в PNG.
Туториал
#matchmoving #video2video
🔥10❤1💯1