NEW BOT Телеграм, страница

TINKER: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

Редактор 3D сцен на гауссианах текстовыми указаниями

— не требует много исходных данных;

— не нуждается в настройке для каждой сцены;

— может редактировать 3D с одним или несколькими входными данными;

— создаёт согласованные правки с несколькими ракурсами по 1–2 изображениям;

— реконструирует видео по первому кадру и глубине;

— улучшает качество 3DGS

Код ждем, с интеграцией в NerfStudio

#gaussian #3dediting

🔥7👍1

1.94K views10:13

Нейронавт | Нейросети в творчестве

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

2:54

This media is not supported in your browser

VIEW IN TELEGRAM

Griffith Voice — AI Voice Cloner & Dubber

Проект соло-разработчика для дубляжа видео с клонированием оригинальных голосов на Whisper / GPT / GPT-SoVITS

На вход нужно только видео. Поддерживает Английский, корейский? японский, китайский.

В разработке: русский!, французский, арабский, немецкий

Работает на 4GB VRAM

#dubbing #voicecloning #translation

👍11🔥2

2K views11:14

Нейронавт | Нейросети в творчестве

Nunchaku Qwen-Image in ComfyUI

Nunchaku объявили о поддержке своих квантов #qwenimage в #ComfyUI

Поддержку лор обещают в грядущих апдейтах

Версия еще не добавлена в реестр ComfyUI, используйте nunchaku v1.0.0dev20250823

Веса
воркфлоу
Реддит

#workflow #optimization

👍9❤1

1.8K views12:16

Нейронавт | Нейросети в творчестве

Русский F5-TTS и русский датасет для голосовых моделей

#tts #dataset #text2speech #voiceclonong

👍1

1.47K views05:19

Нейронавт | Нейросети в творчестве

Forwarded from Den4ik Research

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf

Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

1❤23🔥5👍3

1.21K views05:19

Нейронавт | Нейросети в творчестве

WAN тизерит WAN2.2-S2V - кинематографичный генератор видео по звуку

Спасибо @iNevestenko

#news

❤7👍3🤔2

2.16K views06:09

Нейронавт | Нейросети в творчестве

6:28

Media is too big

VIEW IN TELEGRAM

Blocky: AI-Powered Agent Builder (Beta)

Голосовой сервис Ultravox представил Blocky - ИИ-конструктор голосовых агентов по промпту. Доступно в бета-тесте.

Ultravox n8n
Примеры на гитхабе

#voiceassistant #assiatant #voicecloning #translation #LLM #realtime #online

👍2

1.69K views07:11

Нейронавт | Нейросети в творчестве

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Higgsfield Records

Higgsfield представил ИИ-рекорд лейбл.

И ИИ-идола - Kion

Хвастаются многомиллионными контрактами и предлагают раскрутить вас

#news

👍8😁3😭3❤1

1.81K views07:41

Нейронавт | Нейросети в творчестве

Qwen Image ControlNet & LoRA, EasyCache and Context Window in ComfyUI

Обновки в #ComfyUI :

- поддержка Qwen Image с ControlNet и LoRA

- нода EasyCache ускоряет генерацию на 20 % для видеокарт Blackwell

- возможность последовательно подключать стили LoRA в рабочих процессах Qwen-Image

- работа со скользящими контекстными окнами

#qwenimage #lora #controlnet #optimization

❤6👍6

2.28K views08:11

Нейронавт | Нейросети в творчестве

1:05

This media is not supported in your browser

VIEW IN TELEGRAM

Intent: Next-Gen AI Messenger

ИИ-мессенджер с встроенными фичами для которых вы обычно переключаетесь в эти ваши разные ИИшки

Записаться в вейтлист

#assistant #messenger #news

👍6👎2👀1

1.57K views08:41

Нейронавт | Нейросети в творчестве

Гугл тизерит релиз Nano-banana (в Gemini app?) на этой неделе

Спасибо @tripl3wave

#news

❤14👍3

1.96K views09:12

Нейронавт | Нейросети в творчестве

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Turntable in Illustrator (beta)

Adobe включили в иллюстраторе в бета-режиме инструмент Turntable, позволяюший вращать 2D векторный арт в 3D пространстве

#news #design

👍7🤯3

2.06K views10:23

Нейронавт | Нейросети в творчестве

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

VibeVoice: A Frontier Open-Source Text-to-Speech Model

Голосовая модель от Microsoft для выразительных диалогов и подкастов.

Может синтезировать речь продолжительностью до 90 минут.

Поддерживает работу с 4 разными голосами в одной генерации, это на 2-3 голоса больше чем в ведущих моделях.

Есть китайский и английский. Надеемся на дообучение

На примере женский голос норм, мужской эмоционально пустой. Послушайте примеры на сайте для общей картины

Код
HF - модель на 1.5 млрд. параметров + токенизатор Обещают 7B и 0.5B
Демо

#podcast #voicecloning #tts #text2speech #text2podcast

👍9❤2🤔1

1.8K views11:33

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

This media is not supported in your browser

Wan-S2V: Audio-Driven Cinematic Video Generation

Релиз обещанного видеогенератора, который принимает на вход картинку и звук

Архитектурно - совет экспертов ( #MoE )

Как видим, умеет работать с диалогами и пением

Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем

До появления компактных версий и обновок от Kijai 5... 4... 3...

Спасибо @iNevestenko

#image2video #audio2video #referencing #wan22

🔥15👍2❤1😁1

2.69K views14:12

About

Blog

Apps

Platform