Media is too big
VIEW IN TELEGRAM
Забавный факт: нейросеть для распознавания голоса whisper умеет на лету переводить из любого языка на английский и наоборот. Не супер точно, как специализированные нейросети для перевода, но тоже сойдёт, и задержка терпимая. Сверху добавил озвучку своим же голосом в нейросети XTTSv2.
На видео:
распознавание голоса и перевод: faster-whisper
Синтез голоса: XTTSv2
Интерфейс: SillyTavern
Гайд как прикрутить всё вместе:
https://github.com/Mozer/wav2lip_extension
На видео:
распознавание голоса и перевод: faster-whisper
Синтез голоса: XTTSv2
Интерфейс: SillyTavern
Гайд как прикрутить всё вместе:
https://github.com/Mozer/wav2lip_extension
Media is too big
VIEW IN TELEGRAM
Добавил в свое расширение wav2lip поддержку голосового ввода и новый голос от XTTSv2. Теперь звучит и выглядит намного реалистичнее! Есть полная поддержка русского языка. Все персонажи вымышленны, все совпадения случайны 😁
LLM: ruGPT3.5-13B
STT: faster-whisper small
TTS: Coqui XTTSv2
Липсинк: wav2lip
GUI: Silly Tavern
Код: https://github.com/Mozer/wav2lip_extension
LLM: ruGPT3.5-13B
STT: faster-whisper small
TTS: Coqui XTTSv2
Липсинк: wav2lip
GUI: Silly Tavern
Код: https://github.com/Mozer/wav2lip_extension
😁1
Hands free voice call to your LLM!
I guess there are easier ways to route speech and audio from SillyTavern to phone, but used this:
- 2 telegram accounts (one for your phone and one for your PC), you can try with 2 Whatsapp accounts.
- VB-Audio Additional Virtual Cables. It's a paid app, but there are always options, https://vb-audio.com/Cable/
- OBS studio
- official XTTSv2 extension for silly tavern
- modified streaming speech recognition extension for silly tavern with faster-whisper. Guide: https://github.com/Mozer/wav2lip_extension/blob/main/README_voice_call.md
At home it works flawlessly with TWS headphones, but at the street all the ambient noises reduce speech recognition quality. Short questions work fine, but longer things can turn your call into a disaster (bad TWS microphone, poor Bluetooth, bad 4G signal, other people voices, street sounds). Anyway it's winter and having the ability to chat with your LLM outside without use of hands is great.
I guess there are easier ways to route speech and audio from SillyTavern to phone, but used this:
- 2 telegram accounts (one for your phone and one for your PC), you can try with 2 Whatsapp accounts.
- VB-Audio Additional Virtual Cables. It's a paid app, but there are always options, https://vb-audio.com/Cable/
- OBS studio
- official XTTSv2 extension for silly tavern
- modified streaming speech recognition extension for silly tavern with faster-whisper. Guide: https://github.com/Mozer/wav2lip_extension/blob/main/README_voice_call.md
At home it works flawlessly with TWS headphones, but at the street all the ambient noises reduce speech recognition quality. Short questions work fine, but longer things can turn your call into a disaster (bad TWS microphone, poor Bluetooth, bad 4G signal, other people voices, street sounds). Anyway it's winter and having the ability to chat with your LLM outside without use of hands is great.
👍1
https://youtu.be/JyfYl16FhKM?si=NIAa_JWZVU_CTe10
На моё расширение видео гайд записали на английском 👍
На моё расширение видео гайд записали на английском 👍
YouTube
Video chat with AI characters - SillyTavern
Wav2lip extension allows your characters to generate multilingual lip-sync videos.
Wav2Lip Github - https://github.com/Mozer/wav2lip_extension
How to switch branch - https://youtu.be/iyGvnfiHd-Y
How to run SillyTavern Extras - https://youtu.be/gnQAW5srWf8…
Wav2Lip Github - https://github.com/Mozer/wav2lip_extension
How to switch branch - https://youtu.be/iyGvnfiHd-Y
How to run SillyTavern Extras - https://youtu.be/gnQAW5srWf8…
❤1
Forwarded from Бэкдор
Это не настоящие фотки на телефон! Это Midjourney v6 — она настолько хороша, что уже может творить вот такое! Никакой «зловещей долины», странных пропорций и артефактов, выдающих, что это нейронка. Всё выглядит так, будто это обычные фотки!
Забирайте шаблон промпта для генерации своих «фоток с телефона»:
Midjourney — тут.
@whackdoor
Забирайте шаблон промпта для генерации своих «фоток с телефона»:
phone photo of a man sitting on a bench with his family at a wedding in New York posted to reddit in 2019 --style rawMidjourney — тут.
@whackdoor
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Wav2lip отлично справляется с песнями. Видео из About a girl, а голос из Smells like teen spirit. Однако голос должен быть чистым, без музыки (можно использовать сервисы для разделения музыки на отдельные дорожки для извлечения голоса).
Так можно "переснять" клипы на песни, у которых никогда не было клипов 🤯
P.S. Во время записи этого концерта "MTV Unplugged" зритель из зала попросил Курта исполнить Smells like teen spirit, на что Курт отшутился, что не знает как её переделать в акустическую версию. Ну вот, спустя 30 лет исполнил, хотя бы а капелла.
Так можно "переснять" клипы на песни, у которых никогда не было клипов 🤯
P.S. Во время записи этого концерта "MTV Unplugged" зритель из зала попросил Курта исполнить Smells like teen spirit, на что Курт отшутился, что не знает как её переделать в акустическую версию. Ну вот, спустя 30 лет исполнил, хотя бы а капелла.
👍2
Запустил SDXL Turbo чисто на процессоре через OpenVINO (модель rupeshs/sdxl-turbo-openvino-int8). На CPU именно через OpenVINO - самая большая скорость, все остальные реализации в несколько раз медленнее: в Automatic1111 1.5 минуты на картинку, в stable-diffusion.cpp еще не тестил, но там тоже нет API.
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
👍3