Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
Метод улучшения понимания текстовых подсказок в видео.
Модель анализирует видео, выделяя ключевые кадры и области, которые содержат важную информацию. Затем модель детально изучает эти участки, обновляет свои выводы и даёт более точные ответы на вопросы.
Использует метод визуальной руминации, имитирует способ обработки визуальной информации человеком: обращает внимание на важное, «присматривается» и делает выводы. Video-R4 хорошо работает не только с видео, но и с документами и слайдами, помогая отвечать на сложные вопросы, связанные с визуальной и текстовой информацией.
Гитхаб
#vlm
Метод улучшения понимания текстовых подсказок в видео.
Модель анализирует видео, выделяя ключевые кадры и области, которые содержат важную информацию. Затем модель детально изучает эти участки, обновляет свои выводы и даёт более точные ответы на вопросы.
Использует метод визуальной руминации, имитирует способ обработки визуальной информации человеком: обращает внимание на важное, «присматривается» и делает выводы. Video-R4 хорошо работает не только с видео, но и с документами и слайдами, помогая отвечать на сложные вопросы, связанные с визуальной и текстовой информацией.
Гитхаб
#vlm
🔥4👍2
Нейронавт | Нейросети в творчестве
Z-Image-Turbo Training Adapter Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции…
How to Train a Z-Image-Turbo LoRA with AI Toolkit
Туториал от Ostris по обучению лоры Z-Image-Turbo с применением того самого адаптера
#finetuning #adapter #lora #zimage #tutorial
Туториал от Ostris по обучению лоры Z-Image-Turbo с применением того самого адаптера
#finetuning #adapter #lora #zimage #tutorial
YouTube
How to Train a Z-Image-Turbo LoRA with AI Toolkit
How to Train a Z-Image-Turbo LoRA with AI Toolkit using a de-distill training adapter. In this tutorial we train a style LoRA in the style of children's artwork.
Support me - https://ostris.com/support
Children's Drawings LoRA - https://huggingface.co/…
Support me - https://ostris.com/support
Children's Drawings LoRA - https://huggingface.co/…
❤7👍3🔥1🌚1
Защита от пиратства или спящий агент?
Пардон. Нечаянно убил комменты. Публикую снова
Российские учёные разработали метод защиты прав на модели компьютерного зрения.
Метод работает через встраивание в уже обученную модель «нейронов-детекторов», которые активируются только при наличии специального «раздражителя» (секретного ключа), и «нейронов-нарушителей», мешающих работе системы при отсутствии такого ключа
тесты показали, что вероятность случайной активации таких нейронов менее 0,01 %, поэтому они "не вызывают сбоев в работе алгоритмов"
в будущем метод можно будет применять не только для моделей компьютерного зрения, но и для больших языковых моделей, систем принятия решений и других ИИ-алгоритмов
А теперь меняем сценарий. Создаем модель, только делаем все наоборот. Модель работает нормально пока не получит на вход фразу «Почему бы тебе не скоротать время, сыграв в пасьянс?» или изображение дамы пик. Продаем модель и в нужный момент цап-царап...
#яниначтоненамекаю #safety #research #news
Пардон. Нечаянно убил комменты. Публикую снова
Российские учёные разработали метод защиты прав на модели компьютерного зрения.
Метод работает через встраивание в уже обученную модель «нейронов-детекторов», которые активируются только при наличии специального «раздражителя» (секретного ключа), и «нейронов-нарушителей», мешающих работе системы при отсутствии такого ключа
тесты показали, что вероятность случайной активации таких нейронов менее 0,01 %, поэтому они "не вызывают сбоев в работе алгоритмов"
в будущем метод можно будет применять не только для моделей компьютерного зрения, но и для больших языковых моделей, систем принятия решений и других ИИ-алгоритмов
А теперь меняем сценарий. Создаем модель, только делаем все наоборот. Модель работает нормально пока не получит на вход фразу «Почему бы тебе не скоротать время, сыграв в пасьянс?» или изображение дамы пик. Продаем модель и в нужный момент цап-царап...
#яниначтоненамекаю #safety #research #news
😱6👍3
Как проверить изображение на ИИшность
Закиньте его в Gemini с промптом
Собственно для этого и нужен SynthID, но он определит только изображения созданные моделями с SynthID
Есть и другие инструменты, например Hive AI Detector
Это браузерное расширение. Правый клик на картинке - и получаем анализ вероятности того что она создана нейросетью. Знает большинство генераторов картинок, но Z-Image пока еще не знает, определил его как Flux
Потестил его на нескольких картинках - хороший процент угадывания.
Спасибо @BrianMItro
#tools
Закиньте его в Gemini с промптом
@synthid is this real image?
Собственно для этого и нужен SynthID, но он определит только изображения созданные моделями с SynthID
Есть и другие инструменты, например Hive AI Detector
Это браузерное расширение. Правый клик на картинке - и получаем анализ вероятности того что она создана нейросетью. Знает большинство генераторов картинок, но Z-Image пока еще не знает, определил его как Flux
Потестил его на нескольких картинках - хороший процент угадывания.
Спасибо @BrianMItro
#tools
👍8❤5🔥2
Seedream 4.1
У некоторых юзеров уже появился на Dreamina Capcut в списке доступных моделей под названием Image 4.1
#text2image
У некоторых юзеров уже появился на Dreamina Capcut в списке доступных моделей под названием Image 4.1
#text2image
❤10👍3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
MotionV2V: Editing Motion in a Video
"Первый по-настоящему нелокальный" видеоредактор, который позволяет манипулировать контентом видео в пространстве и времени. На базе CogVideoX-5B
— может контролировать, где появляются объекты
— определяет скорость и направление движения объектов
— управляет временем появления объектов
— меняет позицию камеры
— редактирует видео с помощью простого интерфейса — механизма управления на основе точек, что позволяет вносить изменения через модификацию траекторий точек
— не требует масок
— редактирует движение в видео, а не генерирует новое видео с заданным движением
— работает с полным видео и его представлением движения, а не только с первым кадром
— позволяет редактировать движение объектов, которые появляются в видео не с первого кадра
Код ждем
#motioncontrol #videoediting
"Первый по-настоящему нелокальный" видеоредактор, который позволяет манипулировать контентом видео в пространстве и времени. На базе CogVideoX-5B
— может контролировать, где появляются объекты
— определяет скорость и направление движения объектов
— управляет временем появления объектов
— меняет позицию камеры
— редактирует видео с помощью простого интерфейса — механизма управления на основе точек, что позволяет вносить изменения через модификацию траекторий точек
— не требует масок
— редактирует движение в видео, а не генерирует новое видео с заданным движением
— работает с полным видео и его представлением движения, а не только с первым кадром
— позволяет редактировать движение объектов, которые появляются в видео не с первого кадра
Код ждем
#motioncontrol #videoediting
👍8❤1🔥1