Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.44K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
VibeVoice ComfyUI Nodes теперь поддерживает теги пауз в двух вариантах:

[pause] → вставляет паузу продолжительностью в 1 секунду (по умолчанию)

[pause:ms] → вставляет пользовательскую длительность паузы в миллисекундах (например, [pause:2000] для 2 секунд).

Гитхаб

#podcast #voicecloning #tts #text2speech #text2podcast #comfyui
🔥7👍1
1GIRL QWEN v2.0

Еще одна лора для #qwenimage имитирующая реалистичное фото на смартфон с фокусом на девушках

#lora #text2image
🔥11🤯3👍2🍌1
Anamorpher

инструмент для внедрения в изображения «скрытых сообщений» для систем искусственного интеллекта. Когда такие изображения смотрят в обычном размере, они выглядят как обычные картинки. Но если их уменьшить, то в них проявляются скрытые подсказки или команды для ИИ.

Представьте, что вы рисуете картинку, которая кажется совершенно безобидной. Но если посмотреть на неё издалека или уменьшить размер, то можно увидеть тайное сообщение или инструкцию. Именно так работает Anamorpher. Он позволяет:

— создавать такие «магические» изображения, которые содержат скрытые команды

— проверять, насколько хорошо эти скрытые сообщения работают с разными программами и библиотеками (например, OpenCV, PyTorch, TensorFlow и Pillow)

— добавлять свои собственные способы изменения размера изображений, чтобы экспериментировать и улучшать результаты

Очевидно, это можно использовать как для атак на ИИ, так и для защиты изображений

#news #safety #tools #virus
👍11🤯41
Wan2.2-VACE-Fun-A14B

В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22

Непонятно насколько они качественные и финальные

Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024

Практически в то же время в репозитории Kijai появились

fp8 scaled
bf16

#controlnet #referencing #depth2video #pose2video
🔥9👍2
Stable Audio 2.5

Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах

— быстро генерирует треки до трёх минут

— создаёт музыкальные композиции с чёткой структурой

— понимает запросы о настроении и музыкальных особенностях

— позволяет дорабатывать загруженные аудиофайлы

— помогает создавать уникальный звуковой стиль

Попробовать на офсайте (10 треков в месяц бесплатно, 3 минуты входного аудио)
ComfyUI (API)

#text2music #text2audio #music2music #audio2music #sfx #musicediting
3👍2👀1
Forwarded from Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm

Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?

Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным

Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.

Модель
Сolab поиграться
👍12🔥2