NEW BOT Телеграм, страница

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.

На сайте много примеров.

поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов

Поддерживает английский и китайский

HF
Демо

Спасибо @m_franz

#voicecloning #text2speech #tts

🔥11👍3

2.16K views06:52

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

Видеогенератор при участии Bytedance

— генерирует видео на основе текста, изображений и аудио

— удерживает идентичность и характеристики изображаемого субъекта

— синхронизирует видео с аудио

— позволяет варьировать результат с помощью текстовых промптов

В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper

выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1

Код
HF

#referencing #text2video #image2video #audio2video

👍7❤4🔥1

2.4K views08:12

Нейронавт | Нейросети в творчестве

Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping Помните эти многообещающие методы редактирования перетаскиванием? Вот еще один, заявлена работа в рилтайме работает быстрее, чем FastDrag (в 14 раз) и DragDiffusion…

Кстати прошлогодний InstantDrag был опубликован,
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт

Код
Демо

#imageediting #drag

👍6

1.8K views09:12

Нейронавт | Нейросети в творчестве

SRPO: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой

Народ уже пилит кванты и выжимает лоры

Гитхаб
HF - 48Гб
bf16 и fp8

#text2image #fluxc

1👍13❤1🔥1

2.59K views10:13

Нейронавт | Нейросети в творчестве

Qwen-Image-Lightning v2

Обновка 4-шаговой лоры под #qwenimage

Гитхаб
HF

#lora #optimization #text2image

🔥13❤3👍3

2.11K views11:13

Нейронавт | Нейросети в творчестве

Unlock a world of viewers with multi-language audio

В ближайшие недели YouTube запускает ИИ-дубляж видео на русский (и другие) язык для миллионов блогеров.

Всего будет доступно 30 языков. Переводит и озвучивает Gemini.

Яндекс-браузеру бояться!

#dubbing #news

blog.youtube

Unlock a world of viewers with multi-language audio

1👍14🔥7❤3

8.94K viewsedited 12:16

Нейронавт | Нейросети в творчестве

hunyuanimage-2.1 gguf

Кванты вчерашнего HunyuanImage-2.1

воркфлоу есть, но он неполноценный, пока нет рефайнера

#text2image #gguf #workflow

🔥10

1.97K views13:16

Нейронавт | Нейросети в творчестве

Так народ!
Я нашел вам где бесплатно потестить Seedream 4.0

Вот порядок действий:

1. Прячемся за три буквы (Польша подходит)
2. Идем на

https://yupp.ai/

3. Choose models - выбираем Seedream 4.0 и Nano-Banana. Seedream будет со значком доллара - "платный" - все равно выбираем.
5. Пишем промпт, получаем результат.
6. Голосуем и даем фидбек.
7. Появляется купон - стираем мышкой защитный слой и получаем рандомное количество кредитов. И за каждый фидбек опять могут подарить кредиты.
8. В какой-то момент вас попросят заполнить анкету прежде чем дадут погенерить.
9. Результаты можно отправить на

Батл Сидрим-Банана

10. Посылаем админу в карму лучи добра, по желанию - звезды, машины, квартиры.
11. Если где-то запостите эту инфу, помяните добрым словом этот канал 🥰

По мне, банан лучше слушается и делает красивее

#text2image

🔥15👍5💯3🤔1

2.24K views16:54

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Ebsynth V2

Веб-версия легендарного инструмента для так скажем замены текстур на видео. Изменяем что-нибудь в одном кадре любыми доступными средствами. Отдаем это Ebsynth, и он по векторам движения шевелит наш кадр на всем видео.

В веб-версии появилась таймлиния с ключевыми кадрами, рисовалка, удобное управление ключевыми кадрами. И встроенный генератор по изображению с контролнетом

На бесплатном тарифе разрешение ограничено 720p, ограничено количество генрации ключевых кадров, нет экспорта в PNG.

Туториал

#matchmoving #video2video

🔥10❤1💯1

1.99K views05:55

About

Blog

Apps

Platform