NEW BOT Телеграм, страница

Voice-Pro: The best gradio web-ui for trannoscription, translation and text-to-speech

Приложение для работы с речью - транскрибация, перевод и генерация речи по тексту.

Под капотом Whisper, Google Translator, Edge TTS. Поддерживает 100 языков. С учетом начинки можно рассчитывать на поддержку русского языка.

Умеет скачивать видео с ютуба, конвертировать в аудио, отделять речь из микса. Есть пакетная обработка и рилтайм

‼️Будьте осторожны. Уже есть пострадавшие. Устанавливайте если знаете что делаете

это говно снесло мне Nvidia app при конфигурации и видуха тупо перестала работать

#tts #stt #dubbing #text2speech #speech2 text #speech

👍9🤔5🤯2

1.97K viewsedited 10:13

Нейронавт | Нейросети в творчестве

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Обновился генератор видео от Alibaba EasyAnimate до версии v5

Разрешение до 1024x1024, 49 кадров, 8 кадров в секунду, генерация по картинке (финальный кадр тоже можно указать!)
Поддержка #ComfyUI, Lora, Controlnet.
Запаситесь 24 GB VRAM

Демо
ComfyUI
Гитхаб

Веса:
https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-Control

#text2video #image2video

👍5💯3👎2🤔2

1.67K views10:35

Нейронавт | Нейросети в творчестве

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Qwen2.5-Coder

Обновка LLM для работы с кодом Qwen
По бенчмаркам - уровень gpt4o
Опенсорс, доступны 0.5B / 1.5B / 3B / 7B / 14B / 32В. Можно запустить локально

Модели на HF
Демо
Гитхаб

#coding #assistant

🔥8👎1🤯1

1.61K views12:43

Нейронавт | Нейросети в творчестве

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

e2-f5-tts multilingual

В голосовой модели e2-f5 мультиязычная обновка. Теперь можно клонировать голос и подгружать свои файнтюны, несколько готовых есть. Русского не нашел

Приложение доступно в Pinokio

Инструкция в твиттере

Демо (без файнтюнов)

Гитхаб

#text2speech #tts #voicecloninhg

❤6

1.49K views16:10

Нейронавт | Нейросети в творчестве

Qwen2.5-Coder Обновка LLM для работы с кодом Qwen По бенчмаркам - уровень gpt4o Опенсорс, доступны 0.5B / 1.5B / 3B / 7B / 14B / 32В. Можно запустить локально Модели на HF Демо Гитхаб #coding #assistant

This media is not supported in your browser

VIEW IN TELEGRAM

Qwen2.5-Coder-Artifacts

Еще один демоспейс Qwen2.5-Coder
наподобие Claude artifacts

+ Qwen2.5-Coder 32B доступен в Hugging Chat

#coding #assistant

🔥4

1.46K views16:36

Нейронавт | Нейросети в творчестве

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

Mochi + FasterCache

Ускоритель видеодиффузии FasterCache прикрутили к Mochi, получив сокращение времени генерации почти вдвое. Обещают gradio демо

твиттер

#optimization #text2image

👍5

1.57K views17:03

Нейронавт | Нейросети в творчестве

Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models

Генерация фотореалистичных изображений с пиксельной точностью от Nvidia. Отсутствует CLIP, пиксельное пространство вместо латентного.

Фичи:
- картинки по тексту
- ControlNet-апсемплинг до 4K (генератор выдает 1K)
- поддерживает Controlnet, сети управления
- HDR панорамы 360°
- дообучение, в том числе на несколько объектов

Впечатляет, но

Кода нет

#text2image #panorama #HDR #conditioning #upscale

🔥6👍1

1.39K views08:00

Нейронавт | Нейросети в творчестве