Nunchaku Qwen-Image in ComfyUI
Nunchaku объявили о поддержке своих квантов #qwenimage в #ComfyUI
Поддержку лор обещают в грядущих апдейтах
Версия еще не добавлена в реестр ComfyUI, используйте nunchaku v1.0.0dev20250823
Веса
воркфлоу
Реддит
#workflow #optimization
Nunchaku объявили о поддержке своих квантов #qwenimage в #ComfyUI
Поддержку лор обещают в грядущих апдейтах
Версия еще не добавлена в реестр ComfyUI, используйте nunchaku v1.0.0dev20250823
Веса
воркфлоу
Реддит
#workflow #optimization
👍9❤1
👍1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
1❤23🔥5👍3
Media is too big
VIEW IN TELEGRAM
Blocky: AI-Powered Agent Builder (Beta)
Голосовой сервис Ultravox представил Blocky - ИИ-конструктор голосовых агентов по промпту. Доступно в бета-тесте.
Ultravox n8n
Примеры на гитхабе
#voiceassistant #assiatant #voicecloning #translation #LLM #realtime #online
Голосовой сервис Ultravox представил Blocky - ИИ-конструктор голосовых агентов по промпту. Доступно в бета-тесте.
Ultravox n8n
Примеры на гитхабе
#voiceassistant #assiatant #voicecloning #translation #LLM #realtime #online
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield Records
Higgsfield представил ИИ-рекорд лейбл.
И ИИ-идола - Kion
Хвастаются многомиллионными контрактами и предлагают раскрутить вас
#news
Higgsfield представил ИИ-рекорд лейбл.
И ИИ-идола - Kion
Хвастаются многомиллионными контрактами и предлагают раскрутить вас
#news
👍8😁3😭3❤1
Qwen Image ControlNet & LoRA, EasyCache and Context Window in ComfyUI
Обновки в #ComfyUI :
- поддержка Qwen Image с ControlNet и LoRA
- нода EasyCache ускоряет генерацию на 20 % для видеокарт Blackwell
- возможность последовательно подключать стили LoRA в рабочих процессах Qwen-Image
- работа со скользящими контекстными окнами
#qwenimage #lora #controlnet #optimization
Обновки в #ComfyUI :
- поддержка Qwen Image с ControlNet и LoRA
- нода EasyCache ускоряет генерацию на 20 % для видеокарт Blackwell
- возможность последовательно подключать стили LoRA в рабочих процессах Qwen-Image
- работа со скользящими контекстными окнами
#qwenimage #lora #controlnet #optimization
❤6👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Intent: Next-Gen AI Messenger
ИИ-мессенджер с встроенными фичами для которых вы обычно переключаетесь в эти ваши разные ИИшки
Записаться в вейтлист
#assistant #messenger #news
ИИ-мессенджер с встроенными фичами для которых вы обычно переключаетесь в эти ваши разные ИИшки
Записаться в вейтлист
#assistant #messenger #news
👍6👎2👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Turntable in Illustrator (beta)
Adobe включили в иллюстраторе в бета-режиме инструмент Turntable, позволяюший вращать 2D векторный арт в 3D пространстве
#news #design
Adobe включили в иллюстраторе в бета-режиме инструмент Turntable, позволяюший вращать 2D векторный арт в 3D пространстве
#news #design
👍7🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
VibeVoice: A Frontier Open-Source Text-to-Speech Model
Голосовая модель от Microsoft для выразительных диалогов и подкастов.
Может синтезировать речь продолжительностью до 90 минут.
Поддерживает работу с 4 разными голосами в одной генерации, это на 2-3 голоса больше чем в ведущих моделях.
Есть китайский и английский. Надеемся на дообучение
На примере женский голос норм, мужской эмоционально пустой. Послушайте примеры на сайте для общей картины
Код
HF - модель на 1.5 млрд. параметров + токенизатор Обещают 7B и 0.5B
Демо
#podcast #voicecloning #tts #text2speech #text2podcast
Голосовая модель от Microsoft для выразительных диалогов и подкастов.
Может синтезировать речь продолжительностью до 90 минут.
Поддерживает работу с 4 разными голосами в одной генерации, это на 2-3 голоса больше чем в ведущих моделях.
Есть китайский и английский. Надеемся на дообучение
На примере женский голос норм, мужской эмоционально пустой. Послушайте примеры на сайте для общей картины
Код
HF - модель на 1.5 млрд. параметров + токенизатор Обещают 7B и 0.5B
Демо
#podcast #voicecloning #tts #text2speech #text2podcast
👍9❤2🤔1
Wan-S2V: Audio-Driven Cinematic Video Generation
Релиз обещанного видеогенератора, который принимает на вход картинку и звук
Архитектурно - совет экспертов ( #MoE )
Как видим, умеет работать с диалогами и пением
Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем
До появления компактных версий и обновок от Kijai 5... 4... 3...
Спасибо @iNevestenko
#image2video #audio2video #referencing #wan22
Релиз обещанного видеогенератора, который принимает на вход картинку и звук
Архитектурно - совет экспертов ( #MoE )
Как видим, умеет работать с диалогами и пением
Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем
До появления компактных версий и обновок от Kijai 5... 4... 3...
Спасибо @iNevestenko
#image2video #audio2video #referencing #wan22
🔥15👍2❤1😁1
Nano-banana только что релизнули в Gemini 2.5 Flash
Доступно для граждан правильной страны в gemini app и Google AI Studio
Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию
Спасибо @iNevestenko
#imageediting #sota
Доступно для граждан правильной страны в gemini app и Google AI Studio
Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию
Спасибо @iNevestenko
#imageediting #sota
🔥12👍2❤1