In-Video Instructions: Visual Signals as Generative Control
Контроль сюжета на видеогенерации визуальными аннотациями
Метод тестировали на нескольких моделях: Veo 3.1, Kling 2.5 и Wan 2.2
Код ждем
#visualprompting #motioncontrol #image2video
Контроль сюжета на видеогенерации визуальными аннотациями
Метод тестировали на нескольких моделях: Veo 3.1, Kling 2.5 и Wan 2.2
Код ждем
#visualprompting #motioncontrol #image2video
👍18🔥1
🔥22👍9❤1😱1💯1
Adv-GRPO
ByteDance ищет новые пути улучшения качества генерации картинок
Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту
— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации
— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям
— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений
Прикрутили к #SD3 и превзошли его и Flow-GRPO
Гитхаб
HF
Демо
#research #text2image
ByteDance ищет новые пути улучшения качества генерации картинок
Adv-GRPO — фреймворк для обучения с подкреплением (RL), который использует состязательное вознаграждение для улучшения генерации изображений по тексту
— применяет визуальные базовые модели (например, DINO) в качестве системы вознаграждения, что даёт более детальные визуальные сигналы для оптимизации
— позволяет проводить настройку стиля с помощью референсных наборов данных, направляя базовую модель к определённым визуальным стилям
— эффективнее борется с проблемой «хакерства вознаграждений», при которой модель получает высокие оценки, но не улучшает качество изображений
Прикрутили к #SD3 и превзошли его и Flow-GRPO
Гитхаб
HF
Демо
#research #text2image
❤4👍3🔥2
Fara-7B GGUF
Квантизованные веса компактного агента
Huihui-Fara-7B-abliterated-GGUF - статические
Fara-7B-i1-GGUF - взвешенные
В чем разница понятия не имею
mradermacher quant download page
#agent #gui #vlm #gguf
Квантизованные веса компактного агента
Huihui-Fara-7B-abliterated-GGUF - статические
Fara-7B-i1-GGUF - взвешенные
В чем разница понятия не имею
mradermacher quant download page
#agent #gui #vlm #gguf
Telegram
Нейронавт | Нейросети в творчестве
Fara-7B: An Efficient Agentic Model for Computer Use
Локальный компактный агент от Microsoft для управления компьютером на базе Qwen2.5-VL-7B
— ищет информацию и суммирует результаты;
— заполняет формы и управляет аккаунтами;
— бронирует путешествия,…
Локальный компактный агент от Microsoft для управления компьютером на базе Qwen2.5-VL-7B
— ищет информацию и суммирует результаты;
— заполняет формы и управляет аккаунтами;
— бронирует путешествия,…
👍9
ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton
Портативная сборка #Comfyui от @stefanfalkok
torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1
а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые
ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1
Портативная сборка #Comfyui от @stefanfalkok
torch 2.9.0
python 3.13.9
sageattention 2.2.0 + triton 3.5.1
а также есть основные предустановленные кастомные ноды и все его воркфлоу, даже тестовые
ComfyUI_portable_torch_2.9.1_cu130_cp313_sageattention_triton
все тоже самое, но на торче 2.9.1
huggingface.co
StefanFalkok/ComfyUI_portable_torch_2.9.0_cu130_cp313_sageattention_triton at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤19👍1
CoVT: Chain-of-Visual-Thought
Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве
— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)
— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения
— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели
— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.
Базовая модель для экспериментов — Qwen2.5-VL-7B.
Сайт проекта вероятно появится когда-нибудь
HF - тут несколько разных моделей
#research #CoT #CoVT
Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве
— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)
— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения
— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели
— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.
Базовая модель для экспериментов — Qwen2.5-VL-7B.
Сайт проекта вероятно появится когда-нибудь
HF - тут несколько разных моделей
#research #CoT #CoVT
🔥9👍3
omniASR-LLM-7B-ZS
Опубликована 7B Zero-Shot модель распознавая речи Omnilingual ASR
#asr #stt #speech2text
Опубликована 7B Zero-Shot модель распознавая речи Omnilingual ASR
#asr #stt #speech2text
huggingface.co
facebook/omniASR-LLM-7B-ZS · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍11❤1
Китайский робот AgiBot A2 три дня шел шел от Сучжоу до Шанхая, прошел 106 км.
Не туда шел, Сара Коннор в США, глупенький
Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»
Ждем новых рекордов. В беге, боксе, стрельбе
#news #robot
Не туда шел, Сара Коннор в США, глупенький
Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»
Ждем новых рекордов. В беге, боксе, стрельбе
#news #robot
👍15😁1
Z-Image-Turbo Training Adapter
Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo
Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели
#finetuning #adapter #lora #zimage
Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo
Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели
#finetuning #adapter #lora #zimage
huggingface.co
ostris/zimage_turbo_training_adapter · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥11❤1👍1