CoVT: Chain-of-Visual-Thought
Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве
— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)
— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения
— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели
— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.
Базовая модель для экспериментов — Qwen2.5-VL-7B.
Сайт проекта вероятно появится когда-нибудь
HF - тут несколько разных моделей
#research #CoT #CoVT
Цепочка рассуждений для визуальных моделей (Chain-of-Visual-Thought)
Позволяет моделям #VLM лучше «видеть» и «думать», используя непрерывные визуальные токены,
рассуждать не только в текстовом, но и в визуальном пространстве
— использует компактные визуальные токены для кодирования перцептивных сигналов (сегментация, глубина, структура краёв и др.)
— обучает модели понимать и генерировать визуальные токены, которые затем можно декодировать в плотные предсказания для визуализации процесса рассуждения
— не полагается на внешние инструменты для визуального восприятия, а интегрирует восприятие в сам процесс рассуждения модели
— обеспечивает более точное и интерпретируемое мультимодальное понимание по сравнению с аналогами.
Базовая модель для экспериментов — Qwen2.5-VL-7B.
Сайт проекта вероятно появится когда-нибудь
HF - тут несколько разных моделей
#research #CoT #CoVT
🔥9👍3
omniASR-LLM-7B-ZS
Опубликована 7B Zero-Shot модель распознавая речи Omnilingual ASR
#asr #stt #speech2text
Опубликована 7B Zero-Shot модель распознавая речи Omnilingual ASR
#asr #stt #speech2text
huggingface.co
facebook/omniASR-LLM-7B-ZS · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍11❤1
Китайский робот AgiBot A2 три дня шел шел от Сучжоу до Шанхая, прошел 106 км.
Не туда шел, Сара Коннор в США, глупенький
Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»
Ждем новых рекордов. В беге, боксе, стрельбе
#news #robot
Не туда шел, Сара Коннор в США, глупенький
Установил мировой рекорд, который отмечен в Книге рекордов Гиннесса как «Самый длинный путь, пройденный гуманоидным роботом»
Ждем новых рекордов. В беге, боксе, стрельбе
#news #robot
👍15😁1
Z-Image-Turbo Training Adapter
Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo
Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели
#finetuning #adapter #lora #zimage
Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo
Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции быстро нарушается. Это приводит к непредсказуемой потере результатов пошаговой дистилляции и снижению качества работы модели. Адаптер позволяет замедлить разрушение дистилляции, что даёт возможность проводить короткие обучающие циклы с сохранением достигнутых результатов и скорости работы модели
#finetuning #adapter #lora #zimage
huggingface.co
ostris/zimage_turbo_training_adapter · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥11❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI-SAM3DObjects
Пакет кастомных нод SAM 3D Objects , создает 3D меш по одному изображению.
#imageto3d #comfyui
Пакет кастомных нод SAM 3D Objects , создает 3D меш по одному изображению.
#imageto3d #comfyui
👍9🔥4
Ровно 3 года исполняется сегодня ChatGPT.
Открытки от
1. ChatGPT
2. Nano- Banana Pro
3. Reve
4. Qwen3-MAX
5. Grok
#news
Открытки от
1. ChatGPT
2. Nano- Banana Pro
3. Reve
4. Qwen3-MAX
5. Grok
#news
🍌13🍾11👍2
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
Анимация всего тела (включая руки и пальцы) с артикулированными объектами по текстовому промпту
Модель отличается от аналогов следующими возможностями:
— управляет объектом, приводя его в заданную позу и артикуляцию
— синтезирует движения всего тела, опираясь на данные только о движениях рук
— создаёт движения, сочетающие ходьбу и манипуляции (например, открывает коробку во время ходьбы)
— обеспечивает реалистичные движения за счёт координации между руками и остальным телом
— повышает точность взаимодействия рук с объектом благодаря унифицированному представлению на основе базовых наборов точек (BPS)
В основе метода — три специализированные диффузионные модели (для тела, левой и правой руки), которые оптимизируются в пространстве шума.
Гитхаб
#humananimation #text2animation #3d
Анимация всего тела (включая руки и пальцы) с артикулированными объектами по текстовому промпту
Модель отличается от аналогов следующими возможностями:
— управляет объектом, приводя его в заданную позу и артикуляцию
— синтезирует движения всего тела, опираясь на данные только о движениях рук
— создаёт движения, сочетающие ходьбу и манипуляции (например, открывает коробку во время ходьбы)
— обеспечивает реалистичные движения за счёт координации между руками и остальным телом
— повышает точность взаимодействия рук с объектом благодаря унифицированному представлению на основе базовых наборов точек (BPS)
В основе метода — три специализированные диффузионные модели (для тела, левой и правой руки), которые оптимизируются в пространстве шума.
Гитхаб
#humananimation #text2animation #3d
🔥7👍6👀1
Обход региональных блокировок иностанными сервисами
На свой страх и риск! - гонять трафик через непроверенные хосты небезопасно
Выбираем нужные секции, добавляем в hosts файл на windows
У меня Google Ai Studio ожила без SMS и впн
Ну и как я понял, репозиторий регулярно обновляется, так что сохраняйте в закладки
спасибо @Dmitriy_Ru6ts0v
На свой страх и риск! - гонять трафик через непроверенные хосты небезопасно
Выбираем нужные секции, добавляем в hosts файл на windows
У меня Google Ai Studio ожила без SMS и впн
Ну и как я понял, репозиторий регулярно обновляется, так что сохраняйте в закладки
спасибо @Dmitriy_Ru6ts0v
GitHub
dns.malw.link/hosts at master · ImMALWARE/dns.malw.link
DNS-сервер + SNI Proxy обходят IP-блокировки сайтов - ImMALWARE/dns.malw.link
❤8👍7🔥3😁2😱2
Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
Метод улучшения понимания текстовых подсказок в видео.
Модель анализирует видео, выделяя ключевые кадры и области, которые содержат важную информацию. Затем модель детально изучает эти участки, обновляет свои выводы и даёт более точные ответы на вопросы.
Использует метод визуальной руминации, имитирует способ обработки визуальной информации человеком: обращает внимание на важное, «присматривается» и делает выводы. Video-R4 хорошо работает не только с видео, но и с документами и слайдами, помогая отвечать на сложные вопросы, связанные с визуальной и текстовой информацией.
Гитхаб
#vlm
Метод улучшения понимания текстовых подсказок в видео.
Модель анализирует видео, выделяя ключевые кадры и области, которые содержат важную информацию. Затем модель детально изучает эти участки, обновляет свои выводы и даёт более точные ответы на вопросы.
Использует метод визуальной руминации, имитирует способ обработки визуальной информации человеком: обращает внимание на важное, «присматривается» и делает выводы. Video-R4 хорошо работает не только с видео, но и с документами и слайдами, помогая отвечать на сложные вопросы, связанные с визуальной и текстовой информацией.
Гитхаб
#vlm
🔥4👍2
Нейронавт | Нейросети в творчестве
Z-Image-Turbo Training Adapter Тренировочный адаптер от Ostris для дообучения Z-Image-Turbo Суть проблемы, которую исправляет адаптер, заключается в следующем: при непосредственном обучении на модели, прошедшей пошаговую дистилляцию, процесс дистилляции…
How to Train a Z-Image-Turbo LoRA with AI Toolkit
Туториал от Ostris по обучению лоры Z-Image-Turbo с применением того самого адаптера
#finetuning #adapter #lora #zimage #tutorial
Туториал от Ostris по обучению лоры Z-Image-Turbo с применением того самого адаптера
#finetuning #adapter #lora #zimage #tutorial
YouTube
How to Train a Z-Image-Turbo LoRA with AI Toolkit
How to Train a Z-Image-Turbo LoRA with AI Toolkit using a de-distill training adapter. In this tutorial we train a style LoRA in the style of children's artwork.
Support me - https://ostris.com/support
Children's Drawings LoRA - https://huggingface.co/…
Support me - https://ostris.com/support
Children's Drawings LoRA - https://huggingface.co/…
❤7👍3🔥1🌚1
Защита от пиратства или спящий агент?
Пардон. Нечаянно убил комменты. Публикую снова
Российские учёные разработали метод защиты прав на модели компьютерного зрения.
Метод работает через встраивание в уже обученную модель «нейронов-детекторов», которые активируются только при наличии специального «раздражителя» (секретного ключа), и «нейронов-нарушителей», мешающих работе системы при отсутствии такого ключа
тесты показали, что вероятность случайной активации таких нейронов менее 0,01 %, поэтому они "не вызывают сбоев в работе алгоритмов"
в будущем метод можно будет применять не только для моделей компьютерного зрения, но и для больших языковых моделей, систем принятия решений и других ИИ-алгоритмов
А теперь меняем сценарий. Создаем модель, только делаем все наоборот. Модель работает нормально пока не получит на вход фразу «Почему бы тебе не скоротать время, сыграв в пасьянс?» или изображение дамы пик. Продаем модель и в нужный момент цап-царап...
#яниначтоненамекаю #safety #research #news
Пардон. Нечаянно убил комменты. Публикую снова
Российские учёные разработали метод защиты прав на модели компьютерного зрения.
Метод работает через встраивание в уже обученную модель «нейронов-детекторов», которые активируются только при наличии специального «раздражителя» (секретного ключа), и «нейронов-нарушителей», мешающих работе системы при отсутствии такого ключа
тесты показали, что вероятность случайной активации таких нейронов менее 0,01 %, поэтому они "не вызывают сбоев в работе алгоритмов"
в будущем метод можно будет применять не только для моделей компьютерного зрения, но и для больших языковых моделей, систем принятия решений и других ИИ-алгоритмов
А теперь меняем сценарий. Создаем модель, только делаем все наоборот. Модель работает нормально пока не получит на вход фразу «Почему бы тебе не скоротать время, сыграв в пасьянс?» или изображение дамы пик. Продаем модель и в нужный момент цап-царап...
#яниначтоненамекаю #safety #research #news
😱6👍3