NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

NeuTTS Air

Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"

Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте

Генерирует речь в реальном времени на устройствах среднего уровня

Клонирует голос, используя всего 3 секунды аудио

Но боюсь, владеет только английским, монолог идущего к реке закину в комменты

GGUF Q8 и Q4

Гитхаб
Демо

#tts #text2speech #voicecloning #mobile #realtime

👍10🔥3👀3

2.12K viewsedited 09:12

Нейронавт | Нейросети в творчестве

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

Chaplin

Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст

Работает полностью локально.

#VSR #video2text #lipreading #realtime

🔥14👍4😱4🥴1

2.34K views10:13

Нейронавт | Нейросети в творчестве

2:43

Media is too big

VIEW IN TELEGRAM

ControlHair: Physically-based Video Diffusion for Controllable Dynamic Hair Rendering

Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором

Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.

Прикручено к модифицированному Wan 2.1

Код ждем

#simulation #controlnet #conditioning #image2video

🔥8👍2

1.98K views11:14

Нейронавт | Нейросети в творчестве

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Для лентяев вроде меня которые еще не установили себе Sora 2

Sora 2 добавили в дискорд FakeMe

Временно можно пользоваться бесплатно.

Использование:

/sora2 prompt:"A dragon flying over a volcano" 
опционально: aspect_ratio и quality

Дискорд

#text2image

😁7👍2

1.88K views12:16

Нейронавт | Нейросети в творчестве

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

LanPaint 1.4 Wan 2.2 inpainting

В думающий инпейнтер LanPaint завезли инпейнтинг видео с #WAN22

Нюанс: жрет около 40ГБ VRAM

#inpainting #wan22 #workflow #videoinpainting

1🔥12👍2

1.99K viewsedited 13:16

Нейронавт | Нейросети в творчестве

Wan Alpha in ComfyUI - Videos with Transparency / October 3rd, 2025

Стрим про Wan-Alpha

#RGBA #text2video #text2rgba #workflow

0:04

Нейронавт | Нейросети в творчестве

Wan-Alpha

Кто хотел генерировать видео с альфа-каналом? Вот оно.

На базе Wan2.1-T2V-14B

К нему нужна ускорялка Lightx2v-T2V-14B

VAE свой - Wan-Alpha VAE. Для #ComfyUI - отдельно декодер RGB и отдельно декодер альфа канала

И своя RGBA Dora

То есть, к…

👍1

2.2K views17:21

Нейронавт | Нейросети в творчестве

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Open Ai представили конструктор агентов Agent Builder

Стрим кажется еще идет
https://www.youtube.com/live/hS1YqcewH0c

#news #agent

👍4

3.27K views17:53

Нейронавт | Нейросети в творчестве

lightx2v Qwen-Image-Edit-2509-Lightning

Четырехшаговая и восьмишаговая ускорялка #QIE

Спасибо @john_eod

#lora #optimization #imageediting

huggingface.co

lightx2v/Qwen-Image-Lightning at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍7❤1

2.36K views06:09

Нейронавт | Нейросети в творчестве

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

ComfyUI 0.3.63

Субграфы теперь можно публиковать - сохранять в бибилиотеку нод

Selection Toolbox был переработан: добавлены новые иконки для упрощения идентификации и расширяемое меню, которое открывает возможности для добавления новых функций в будущем. В дальнейшем может появиться возможность кастомизации функционала Selection Toolbox

#comfyUI

🔥20👍2

2.18K views09:11

Нейронавт | Нейросети в творчестве

Hunyuan-Vision-1.5-Thinking

Самая мощная визуально-языковая модель от Hunyuan-Tencent

Делит 3 место на LMarena с gemini-2.5-flash-preview и Claude-Opus-4

Гитхаб
API
Веса обещают опубликовать
Чат на LMarena

#vlm

👍7❤1

2.32K views11:14

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-Rapid-AIO

Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.

Три версии по 29 ГБ каждая

V1: Qwen-Image-Edit-2509 и 4-step Lightning v2.0. Присыпано небольшим количеством лор NSFW. Универсальный вариант для SFW и NSFW. рекомендуется использовать sa_solver/beta, но euler_a/beta и er_sde/beta тоже могут дать достойные результаты.

V2: Используется набор ускорителей Qwen-Image-Edit, объединяющий 8- и 4- шаговые в одном. Значительно изменены настройки NSFW LoRa для более эффективного использования в SFW и NSFW. Настоятельно рекомендуется использовать sa_solver/simple.

V3: Используются новые лоры Qwen-Image-Edit lightning. Значительно скорректирован микс NSFW лор, удалены плохие и добавлены лучшие. Настоятельно рекомендуется sa_solver/beta

воркфлоу там же в репозитории

#optimization #imageediting #workflow

👍8🔥5

2.5K viewsedited 13:19

Нейронавт | Нейросети в творчестве