Lumina-DiMOO
Открытая мультимодальная модель для генерации и понимания данных, 8B параметров
— генерирует изображения по тексту
— редактирует и преобразует изображения
— распознаёт содержание изображений. И судя по примеру они впихнули в нее какой-то ризонер
— стилизует изображения
— контролнет - контуры, глубина, поза, освещение
— итнпейнтинг и интерполяция (пока не в релизе, ждем)
Гитхаб
HF
Демо ждем
#multimodal #text2image #imageediting #image2texl #vlm
Открытая мультимодальная модель для генерации и понимания данных, 8B параметров
— генерирует изображения по тексту
— редактирует и преобразует изображения
— распознаёт содержание изображений. И судя по примеру они впихнули в нее какой-то ризонер
— стилизует изображения
— контролнет - контуры, глубина, поза, освещение
— итнпейнтинг и интерполяция (пока не в релизе, ждем)
Гитхаб
HF
Демо ждем
#multimodal #text2image #imageediting #image2texl #vlm
🔥9👍1
VibeVoice ComfyUI Nodes теперь поддерживает теги пауз в двух вариантах:
[pause] → вставляет паузу продолжительностью в 1 секунду (по умолчанию)
[pause:ms] → вставляет пользовательскую длительность паузы в миллисекундах (например, [pause:2000] для 2 секунд).
Гитхаб
#podcast #voicecloning #tts #text2speech #text2podcast #comfyui
[pause] → вставляет паузу продолжительностью в 1 секунду (по умолчанию)
[pause:ms] → вставляет пользовательскую длительность паузы в миллисекундах (например, [pause:2000] для 2 секунд).
Гитхаб
#podcast #voicecloning #tts #text2speech #text2podcast #comfyui
🔥7👍1
1GIRL QWEN v2.0
Еще одна лора для #qwenimage имитирующая реалистичное фото на смартфон с фокусом на девушках
#lora #text2image
Еще одна лора для #qwenimage имитирующая реалистичное фото на смартфон с фокусом на девушках
#lora #text2image
🔥11🤯3👍2🍌1
Anamorpher
инструмент для внедрения в изображения «скрытых сообщений» для систем искусственного интеллекта. Когда такие изображения смотрят в обычном размере, они выглядят как обычные картинки. Но если их уменьшить, то в них проявляются скрытые подсказки или команды для ИИ.
Представьте, что вы рисуете картинку, которая кажется совершенно безобидной. Но если посмотреть на неё издалека или уменьшить размер, то можно увидеть тайное сообщение или инструкцию. Именно так работает Anamorpher. Он позволяет:
— создавать такие «магические» изображения, которые содержат скрытые команды
— проверять, насколько хорошо эти скрытые сообщения работают с разными программами и библиотеками (например, OpenCV, PyTorch, TensorFlow и Pillow)
— добавлять свои собственные способы изменения размера изображений, чтобы экспериментировать и улучшать результаты
Очевидно, это можно использовать как для атак на ИИ, так и для защиты изображений
#news #safety #tools #virus
инструмент для внедрения в изображения «скрытых сообщений» для систем искусственного интеллекта. Когда такие изображения смотрят в обычном размере, они выглядят как обычные картинки. Но если их уменьшить, то в них проявляются скрытые подсказки или команды для ИИ.
Представьте, что вы рисуете картинку, которая кажется совершенно безобидной. Но если посмотреть на неё издалека или уменьшить размер, то можно увидеть тайное сообщение или инструкцию. Именно так работает Anamorpher. Он позволяет:
— создавать такие «магические» изображения, которые содержат скрытые команды
— проверять, насколько хорошо эти скрытые сообщения работают с разными программами и библиотеками (например, OpenCV, PyTorch, TensorFlow и Pillow)
— добавлять свои собственные способы изменения размера изображений, чтобы экспериментировать и улучшать результаты
Очевидно, это можно использовать как для атак на ИИ, так и для защиты изображений
#news #safety #tools #virus
👍11🤯4❤1
Wan2.2-VACE-Fun-A14B
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
В репозитории alibaba-pai появились веса модуля контроля видеогенерации VACE для #WAN22
Непонятно насколько они качественные и финальные
Указано что поддерживает Canny, Depth, Pose, MLSD. разрешения - 512, 768, 1024
Практически в то же время в репозитории Kijai появились
fp8 scaled
bf16
#controlnet #referencing #depth2video #pose2video
🔥9👍2