👍17
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
Видеогенераторы в качестве ризонеров (рассуждателей).
Новая парадигма объединяет визуальное и текстовое рассуждение в единой временной структуре
Справляется с задачами, ориентированными на зрение, например, решает головоломки типа Eyeballing Puzzles, где превосходит современные VLM-модели на 10%
Гитхаб
#reasoning #research
👍10
V-Thinker: Interactive Thinking with Images
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
Еще одна похожая работа - размышление изображениями
Гитхаб
HF
#reasoning #assistant #research
👍7❤1
Polaris-Alpha
На openrouter появилась модель, которая предположительно является тестовой версией GPT-5.1
Пишут что выдает очень мало галлюцинаций и стиль ответов похож на GPT
Мне потестить не удалось - роутер выдает ошибку
#new #assistant
На openrouter появилась модель, которая предположительно является тестовой версией GPT-5.1
Пишут что выдает очень мало галлюцинаций и стиль ответов похож на GPT
Мне потестить не удалось - роутер выдает ошибку
#new #assistant
👀6👍2🔥2
Good new everyone!
Лондонский суд отклонил иск Getty Images к Stability AI. Аргумент компании о том, что Stable Diffusion — «пиратская копия» их изображений, не сработал: суд решил, что модель не хранит и не копирует исходники. Это снижает риски для разработчиков ИИ.
#news
Лондонский суд отклонил иск Getty Images к Stability AI. Аргумент компании о том, что Stable Diffusion — «пиратская копия» их изображений, не сработал: суд решил, что модель не хранит и не копирует исходники. Это снижает риски для разработчиков ИИ.
#news
Reuters
Getty Images largely loses landmark UK lawsuit over AI image generator
Getty Images largely lost its London lawsuit against artificial intelligence company Stability AI over its image generator on Tuesday, prompting Getty and some lawyers to call for stronger protections for copyright owners in Britain.
👍15🔥4😁3
Тем временем вайбкодинг стал словом 2025 года по мнению британского словаря Collins
#news #vibecoding
#news #vibecoding
😈4😎3👍1😁1
pi-Flow: Policy-Based Flow Models
Новый метод от Adobe и Stanford University, позволяющий дистиллировать диффузные генераторы
Есть 4-шаговые и 8-шаговые адаптеры
Гитхаб
HF pi-Qwen-Image
HF pi-FLUX.1
pi-Qwen Demo
pi-FLUX Demo
ComfyUI pi-Flow Nodes
спасибо @m_franz
#optimization #text2image #comfyui
Новый метод от Adobe и Stanford University, позволяющий дистиллировать диффузные генераторы
Есть 4-шаговые и 8-шаговые адаптеры
Гитхаб
HF pi-Qwen-Image
HF pi-FLUX.1
pi-Qwen Demo
pi-FLUX Demo
ComfyUI pi-Flow Nodes
спасибо @m_franz
#optimization #text2image #comfyui
👍11😱2
Trajectory Control in ComfyUI - Wan ATI
Стримчик от Comfy Org про контроль траектории в WAN ATI
#comfyui #tutorial #cameracontrol #motioncontrol
Стримчик от Comfy Org про контроль траектории в WAN ATI
#comfyui #tutorial #cameracontrol #motioncontrol
YouTube
Trajectory Control in ComfyUI - Wan ATI
You’ve seen those wild viral videos where the background drifts and folds like an M.C. Escher fever dream — that’s Wan ATI Trajectory Control.
Today, Fill’s not just explaining it — he’s showing off his animated spline editor, a creative tool that lets you…
Today, Fill’s not just explaining it — he’s showing off his animated spline editor, a creative tool that lets you…
👍3
EVTAR: End2End Virtual Try-on with Visual Reference
Виртуальная примерочная на базе Flux-Kontext.dev с использованием дополнительных визуальных референсов. Надевает целевую одежду на изображение человека, учитывая референсные изображения для более точного отображения деталей одежды.
Гитхаб
HF
#tryon
Виртуальная примерочная на базе Flux-Kontext.dev с использованием дополнительных визуальных референсов. Надевает целевую одежду на изображение человека, учитывая референсные изображения для более точного отображения деталей одежды.
Гитхаб
HF
#tryon
👍10
Step-Audio-EditX
Опенсорсная аудиомодель от Степана (Stepfun) на базе LLM на 3B параметров.
Выразительное и итеративное редактирование звука.
Генератор речи по тексту без дообучения
Среди примеров есть очистка аудио от шума, ускорение речи, смена эмоции в речи, перевод обычной речи в шепот, контроль 10 типов паралингвистических особенностей (например, дыхание, смех, вздох, вопросы и т. д.)
Китайский и английский
работает на частоте 41.6Hz. Тут вероятно опечатка и речь о килогерцах
Оптимальный объем VRAM 32 GB, оптимальный хронометрах аудио - до 30 сек
Гитхаб
HF
Демо
#tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech
Опенсорсная аудиомодель от Степана (Stepfun) на базе LLM на 3B параметров.
Выразительное и итеративное редактирование звука.
Генератор речи по тексту без дообучения
Среди примеров есть очистка аудио от шума, ускорение речи, смена эмоции в речи, перевод обычной речи в шепот, контроль 10 типов паралингвистических особенностей (например, дыхание, смех, вздох, вопросы и т. д.)
Китайский и английский
работает на частоте 41.6Hz. Тут вероятно опечатка и речь о килогерцах
Оптимальный объем VRAM 32 GB, оптимальный хронометрах аудио - до 30 сек
Гитхаб
HF
Демо
#tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech
👍9❤1
Qwen-Image-Edit-2509-Light_restoration
Еще интересная лора #QIE от dx8152
Удаляет с изображения освещение. То есть, выполняет первый шаг релайтинга. Может пригодиться для создания датасетов релайтинга
Демо
#lora #relighting
Еще интересная лора #QIE от dx8152
Удаляет с изображения освещение. То есть, выполняет первый шаг релайтинга. Может пригодиться для создания датасетов релайтинга
Демо
#lora #relighting
🔥11👍3