1GIRL QWEN v2.0
Еще одна лора для #qwenimage имитирующая реалистичное фото на смартфон с фокусом на девушках
#lora #text2image
Еще одна лора для #qwenimage имитирующая реалистичное фото на смартфон с фокусом на девушках
#lora #text2image
🔥11🤯3👍2🍌1
Anamorpher
инструмент для внедрения в изображения «скрытых сообщений» для систем искусственного интеллекта. Когда такие изображения смотрят в обычном размере, они выглядят как обычные картинки. Но если их уменьшить, то в них проявляются скрытые подсказки или команды для ИИ.
Представьте, что вы рисуете картинку, которая кажется совершенно безобидной. Но если посмотреть на неё издалека или уменьшить размер, то можно увидеть тайное сообщение или инструкцию. Именно так работает Anamorpher. Он позволяет:
— создавать такие «магические» изображения, которые содержат скрытые команды
— проверять, насколько хорошо эти скрытые сообщения работают с разными программами и библиотеками (например, OpenCV, PyTorch, TensorFlow и Pillow)
— добавлять свои собственные способы изменения размера изображений, чтобы экспериментировать и улучшать результаты
Очевидно, это можно использовать как для атак на ИИ, так и для защиты изображений
#news #safety #tools #virus
инструмент для внедрения в изображения «скрытых сообщений» для систем искусственного интеллекта. Когда такие изображения смотрят в обычном размере, они выглядят как обычные картинки. Но если их уменьшить, то в них проявляются скрытые подсказки или команды для ИИ.
Представьте, что вы рисуете картинку, которая кажется совершенно безобидной. Но если посмотреть на неё издалека или уменьшить размер, то можно увидеть тайное сообщение или инструкцию. Именно так работает Anamorpher. Он позволяет:
— создавать такие «магические» изображения, которые содержат скрытые команды
— проверять, насколько хорошо эти скрытые сообщения работают с разными программами и библиотеками (например, OpenCV, PyTorch, TensorFlow и Pillow)
— добавлять свои собственные способы изменения размера изображений, чтобы экспериментировать и улучшать результаты
Очевидно, это можно использовать как для атак на ИИ, так и для защиты изображений
#news #safety #tools #virus
👍11🤯4❤1
Wan2.2-VACE-Fun-A14B
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
🔥9👍2
Нейронавт | Нейросети в творчестве
Wan2.2-VACE-Fun-A14B В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22 Непонятно насколько они качественные и финальные Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024 Практически в то…
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.2-Fun-Reward-LoRAs
Подтверждено, это релиз.
+ опубликовали Reward-LoRAs
Reward LoRA можно использовать с базовой моделью #Wan22 и доработанными моделями (Wan2.2-Fun), что значительно повышает качество генерации видео
Гитхаб
воркфлоу - там же на гитхабе есть примеры воркфлоу wan2_2_vace_fun
🍾🍾🍾🍾🍾🍾
#workflow #controlnet #referencing #depth2video #pose2video #lora
Подтверждено, это релиз.
+ опубликовали Reward-LoRAs
Reward LoRA можно использовать с базовой моделью #Wan22 и доработанными моделями (Wan2.2-Fun), что значительно повышает качество генерации видео
Гитхаб
воркфлоу - там же на гитхабе есть примеры воркфлоу wan2_2_vace_fun
🍾🍾🍾🍾🍾🍾
#workflow #controlnet #referencing #depth2video #pose2video #lora
👍8🔥5❤1
Stable Audio 2.5
Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах
— быстро генерирует треки до трёх минут
— создаёт музыкальные композиции с чёткой структурой
— понимает запросы о настроении и музыкальных особенностях
— позволяет дорабатывать загруженные аудиофайлы
— помогает создавать уникальный звуковой стиль
Попробовать на офсайте (10 треков в месяц бесплатно, 3 минуты входного аудио)
ComfyUI (API)
#text2music #text2audio #music2music #audio2music #sfx #musicediting
Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах
— быстро генерирует треки до трёх минут
— создаёт музыкальные композиции с чёткой структурой
— понимает запросы о настроении и музыкальных особенностях
— позволяет дорабатывать загруженные аудиофайлы
— помогает создавать уникальный звуковой стиль
Попробовать на офсайте (10 треков в месяц бесплатно, 3 минуты входного аудио)
ComfyUI (API)
#text2music #text2audio #music2music #audio2music #sfx #musicediting
❤3👍2👀1
Нейронавт | Нейросети в творчестве
Stable Audio 2.5 Новая версия аудиомодели от Stability AI, разработанная специально для корпоративного создания звука в больших объёмах — быстро генерирует треки до трёх минут — создаёт музыкальные композиции с чёткой структурой — понимает запросы о настроении…
This media is not supported in your browser
VIEW IN TELEGRAM
При попытке скачать свое творчество в формате видео сайт StableAudio отдает какую-то левую шляпу. Я сразу не заметил что фигня прикрепилась вместо моего трека. Исправляюсь
1👍2🔥2
Forwarded from Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным
Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.
Модель
Сolab поиграться
👍12🔥2
InstantX/Qwen-Image-ControlNet-Inpainting
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
Еще один способ инпейнтинга c #qwen-image
Контролнет от InstantX
Мне не удалось заставить демо хоть что-то нарисовать а не просто заретушировать выделенную область. То ли демоспейс кривой, то ли сам контролнет
HF
Демо
воркфлоу
Блог на китайском
#inpainting #workflow
👍3😁2🤷♂1
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
Модель преобразования речи в речь, умеет рассуждать.
8B и 3B параметров
— преобразует речь в текст, чтобы «понять» смысл
— переводит текст в элементы речи, связывая текст и речь
— создаёт речь, опираясь на понимание смысла, и при этом сохраняет умение «разговаривать» как человек
— хорошо отвечает на вопросы, требующие знаний
— может генерировать речь в реальном времени, не теряя смысла
Гитхаб
Демо
HF
#speech2speech #assistant
👍6😁4👎1