Hunyuan-Vision-1.5-Thinking
Самая мощная визуально-языковая модель от Hunyuan-Tencent
Делит 3 место на LMarena с gemini-2.5-flash-preview и Claude-Opus-4
Гитхаб
API
Веса обещают опубликовать
Чат на LMarena
#vlm
Самая мощная визуально-языковая модель от Hunyuan-Tencent
Делит 3 место на LMarena с gemini-2.5-flash-preview и Claude-Opus-4
Гитхаб
API
Веса обещают опубликовать
Чат на LMarena
#vlm
👍7❤1
Qwen-Image-Edit-Rapid-AIO
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step Lightning v2.0. Присыпано небольшим количеством лор NSFW. Универсальный вариант для SFW и NSFW. рекомендуется использовать sa_solver/beta, но euler_a/beta и er_sde/beta тоже могут дать достойные результаты.
V2: Используется набор ускорителей Qwen-Image-Edit, объединяющий 8- и 4- шаговые в одном. Значительно изменены настройки NSFW LoRa для более эффективного использования в SFW и NSFW. Настоятельно рекомендуется использовать sa_solver/simple.
V3: Используются новые лоры Qwen-Image-Edit lightning. Значительно скорректирован микс NSFW лор, удалены плохие и добавлены лучшие. Настоятельно рекомендуется sa_solver/beta
воркфлоу там же в репозитории
#optimization #imageediting #workflow
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step Lightning v2.0. Присыпано небольшим количеством лор NSFW. Универсальный вариант для SFW и NSFW. рекомендуется использовать sa_solver/beta, но euler_a/beta и er_sde/beta тоже могут дать достойные результаты.
V2: Используется набор ускорителей Qwen-Image-Edit, объединяющий 8- и 4- шаговые в одном. Значительно изменены настройки NSFW LoRa для более эффективного использования в SFW и NSFW. Настоятельно рекомендуется использовать sa_solver/simple.
V3: Используются новые лоры Qwen-Image-Edit lightning. Значительно скорректирован микс NSFW лор, удалены плохие и добавлены лучшие. Настоятельно рекомендуется sa_solver/beta
воркфлоу там же в репозитории
#optimization #imageediting #workflow
👍8🔥5
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kaleido
Модель от Meta AI (запрещено в РФ) создает фотореалистичные изображения и видео любых сцен и объектов с любого ракурса. Созданные ракурсы могут быть использованы для реконструкции 3D сцен (авторы используют NeuS2)
На вход можно подать одно изображение, несколько изображений.
Умеет интерпретировать коллажи
Кода нет
#research #novelview #imageto3d #image2scene
Модель от Meta AI (запрещено в РФ) создает фотореалистичные изображения и видео любых сцен и объектов с любого ракурса. Созданные ракурсы могут быть использованы для реконструкции 3D сцен (авторы используют NeuS2)
На вход можно подать одно изображение, несколько изображений.
Умеет интерпретировать коллажи
Кода нет
#research #novelview #imageto3d #image2scene
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
VChain : Chain-of-Visual-Thought for Reasoning in Video Generation
Фреймворк для улучшения генерации видео.
Использует мультимодальные модели (например, GPT-4o) для создания ключевых кадров, которые помогают видеогенератору. Модель настраивает видеогенератор только в ключевые моменты, что позволяет улучшить качество видео без долгого переобучения.
VChain работает в три этапа: сначала генерирует визуальные рассуждения, потом настраивает модель и в конце создаёт видео.
Хорошо справляется со сложными сценариями
В качестве базоваой модели использовали предварительно обученный Wan2.1-T2V-1.3B
Код ждем
Фреймворк для улучшения генерации видео.
Использует мультимодальные модели (например, GPT-4o) для создания ключевых кадров, которые помогают видеогенератору. Модель настраивает видеогенератор только в ключевые моменты, что позволяет улучшить качество видео без долгого переобучения.
VChain работает в три этапа: сначала генерирует визуальные рассуждения, потом настраивает модель и в конце создаёт видео.
Хорошо справляется со сложными сценариями
В качестве базоваой модели использовали предварительно обученный Wan2.1-T2V-1.3B
Код ждем
👍8👀2
This media is not supported in your browser
VIEW IN TELEGRAM
Paper2Video: Automatic Video Generation from Scientific Papers
Генерация презентационных видео из научных статей
Создает слайды, видео презентатора оживлятором портретов по речи, субтитры — и упаковывает все это в видео.
В качестве примера автор создал видео своей статьи
Код
#paper2videio #text2video
Генерация презентационных видео из научных статей
Создает слайды, видео презентатора оживлятором портретов по речи, субтитры — и упаковывает все это в видео.
В качестве примера автор создал видео своей статьи
Код
#paper2videio #text2video
❤7
Windows-HunyuanWorld-Voyager
Порт HunyuanWorld-Voyager полностью оптимизированный под Windows
#world #text2world #imageto3d #text2video #text2scene #windows
Порт HunyuanWorld-Voyager полностью оптимизированный под Windows
#world #text2world #imageto3d #text2video #text2scene #windows
👍6
Консистентность Qwen-Image
Благодаря связности, Qwen-Image позволяет создавать последовательные кадры даже без редактирования
1. Создаем исходную картинку - детальный план женского лица
2. Добавляем в начало промпта "closeup of an eye.", создаем следующую
3. Последовательно продолжаем добавлять в промпт еще пару уровней укрупнения.
4. Апскейлим последнюю картинку в SUPIR
5. Используем Qwen-Image-Edit с большим латентным изображением - получается аутпейнт
Автор и промпты
#imageediting #qwenimage
Благодаря связности, Qwen-Image позволяет создавать последовательные кадры даже без редактирования
1. Создаем исходную картинку - детальный план женского лица
2. Добавляем в начало промпта "closeup of an eye.", создаем следующую
3. Последовательно продолжаем добавлять в промпт еще пару уровней укрупнения.
4. Апскейлим последнюю картинку в SUPIR
5. Используем Qwen-Image-Edit с большим латентным изображением - получается аутпейнт
Поведение промптов: удаление элементов из подсказки, которые должны были бы вписаться, позволяет увеличить масштаб до определенного уровня. При добавлении элемента (например, зрачка) по умолчанию его цвет отличается от исходного, поэтому вам нужно добавить свойства к новому элементу, даже если этот элемент присутствовал на исходном изображении в качестве выбора модели по умолчанию.
Автор и промпты
#imageediting #qwenimage
👍6😁1🤯1🌚1