Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.44K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

Ускорятор предобученных видеогенераторов. Позволяет повысить эффективность предварительно обученных моделей за счёт адаптации к пространству глубокой компрессии с лёгкой доработкой

Достигает сжатия в 32–64 раза в пространственном и в 4 раза во временном измерении, сохраняя качество реконструкции и возможность работы с более длинными видео

Для адаптации предварительно подготовленной модели Wan-2.1-14B к DC-VideoGen на графическом процессоре NVIDIA H100 требуется 10 дней — получаем снижение задержки вывода до 14,8 раз по сравнению с базовым Wan-2.1-14B 'без потери качества'

Один H100 может выдавать видео с разрешением до 2160x3840

Код и Веса ждем после юридического ревью

Спасибо @m_franz

#text2video #image2video #optimization
🔥13😱62🤔1
Image to Video Generator with Ovi

Демоспейс видеогенератора со звуком Ovi

Поскольку он навайбкоженный, работает криво. Там нужна дополнительная авторизация и она может глючить. В этом случае попробуйте другой браузер

#text2video #image2video #AV #text2Av #image2AV #sfx
👍4🔥1😁1
Qwen3-VL-30B-A3B-Instruct & Thinking

Qwen выпустил младшую версию Qwen3-VL на 30B параметров из которых только 3B активные.
При этом конкурирует с GPT-5-Mini и Claude4-Sonnet, а в некоторых случаях превосходит их.

Есть Выпущена FP8 (в том числе и для Qwen3-VL-235B-A22B)

Код
Демо
HF
Чат
API

#VLM #OCR #assistant #reasoning #video2text #image2text #chat
👍7😱3
MusicGPT

Сервис генерации / редактирования музыки и звука, в том числе речи

Похоже что можно использовать известные голоса и треки просто указывая их в промпте

Не знаю сколько сейчас дают кредитов на старте, я давно зарегался, тогда выдали 500. За одну генерацию забрали 100. Негусто учитывая что бесплатного тарифа нет. Да еще за скачивание берут 50 кредитов (mp3 можно сграбить из браузера бесплатно)

Сами понимаете - не разгуляешься тестить. Мой скоропалительный вердикт: музыку делает плохую (закину в комменты). Мало того что скучную, так еще и с фальшивыми нотами и звучит как секвенсер дешевых сэмплов. Так что сразу указывайте интересный референс.

Тестовый трек закину в комменты. Также можете заценить монолог идущего к реке в исполнении Моргана Фримена и Фредди Меркьюри. Промпт писал на русском

Просто пишешь в промпте "Голос Фредди Меркюри говорит на чистом русском языке ..."
Русские голоса или знает мало или не знает. Отказался говорить голосом Кроша, Всеволода Кузнецова, Сергея Чонишвили по причине что не нашел их в базе.

#musicediting #text2music #tts #text2audio
5👍3🤔1
NeuTTS Air

Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"

Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте

Генерирует речь в реальном времени на устройствах среднего уровня

Клонирует голос, используя всего 3 секунды аудио

Но боюсь, владеет только английским, монолог идущего к реке закину в комменты

GGUF Q8 и Q4

Гитхаб
Демо

#tts #text2speech #voicecloning #mobile #realtime
👍10🔥3👀3
This media is not supported in your browser
VIEW IN TELEGRAM
Chaplin

Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст

Работает полностью локально.

#VSR #video2text #lipreading #realtime
🔥14👍4😱4🥴1
Media is too big
VIEW IN TELEGRAM
ControlHair: Physically-based Video Diffusion for Controllable Dynamic Hair Rendering

Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором

Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.

Прикручено к модифицированному Wan 2.1

Код ждем

#simulation #controlnet #conditioning #image2video
🔥8👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Для лентяев вроде меня которые еще не установили себе Sora 2

Sora 2 добавили в дискорд FakeMe

Временно можно пользоваться бесплатно.

Использование:
/sora2 prompt:"A dragon flying over a volcano" 
опционально: aspect_ratio и quality


Дискорд

#text2image
😁7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
LanPaint 1.4 Wan 2.2 inpainting

В думающий инпейнтер LanPaint завезли инпейнтинг видео с #WAN22

Нюанс: жрет около 40ГБ VRAM

#inpainting #wan22 #workflow #videoinpainting
1🔥12👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Open Ai представили конструктор агентов Agent Builder

Стрим кажется еще идет
https://www.youtube.com/live/hS1YqcewH0c

#news #agent
👍4
ComfyUI 0.3.63

Субграфы теперь можно публиковать - сохранять в бибилиотеку нод

Selection Toolbox был переработан: добавлены новые иконки для упрощения идентификации и расширяемое меню, которое открывает возможности для добавления новых функций в будущем. В дальнейшем может появиться возможность кастомизации функционала Selection Toolbox

#comfyUI
🔥20👍2