NEW BOT Телеграм, страница

UI-TARS

Агент взаимодействия с графическими интерфейсами (GUI) от ByteDance

В отличие от других подобных моделей, UI-TARS не нуждается в сложных дополнительных программах или подсказках, визуально-языковая модель и взаимодействие с интерфейсом объединены в одну модель.

умеет находить информацию, выполнять действия в приложениях и веб-сайтах

UI-TARS Desktop

#agent #gui #vlm

👍9🔥3

1.62K views10:13

4:38

Media is too big

Код

#poseestimation #video2pose #image2pose #videoto3d #video2mesh #humanreconstruction

CameraHMR: Aligning People with Perspective

Реконструкция 3D позы и формы человека по одному изображению или видео с учетом перспективы камеры

Есть 4 ключевых фактора, которые делают его точным и надежным:

1. Чтобы получить точную 3D-форму и позу, а также хорошее соответствие особенностям изображения, вам необходимо знать фокусное расстояние камеры. Чтобы решить эту проблему, мы обучаем HumanFOV вычислять поле зрения.

2. Мы вводим CameraHMR, который интегрирует HumanFOV в HMR2.0 для использования расчетного фокусного расстояния.

3. Чтобы получить точные обучающие данные pseudo ground truth (pGT), мы вычисляем фокусное расстояние для изображений в наборе данных 4DHumans и модифицируем SMPLify, чтобы учесть это.

4. Но SMPLify использует только разреженные 2D-ключевые точки, которые не отражают форму тела. Итак, мы тренируем детектор ключевых точек плотной поверхности, DenseKP, на BEDLAM и запускаем его на 4DHumans, что приводит к улучшению формы тела. Результирующий метод - CamSMPLify.

Мы повторяем обучение CameraHMR и запускаем CamSMPLify на обучающем наборе, инициализированном CameraHMR . Это приводит к значительному улучшению pGT для 4DHumans и методу HMR с одним изображением SOTA.

👍8🔥1💩1

1.63K views10:43

0:03

Go with the Flow

Контроль движения на генерации видео за счет геометрического искажения шума

Код
Веса
Видео (4 минуты)
Видео туториал

#motioncontrol #motiontransfer #cameracontrol

👍12🔥4🍾2

1.6K views11:14

0:31

Gemini 2.0 Flash Thinking

Гугл обновил свою рассуждалку. Контекст 1 миллион токенов - впятеро больше, чем o1 Pro

В топе на арене

Уже в AnyChat

Попробовать (не для российских IP)

#reasining #assistant

👍8❤2

1.67K views11:44

0:58

Mobile-Agent-E

Агент для мобилки от Alibaba

Код
Демо

#agent #mobile

👍6🔥3

1.52K views12:18

Опубликован код релайтера Neural Gaffer

Код

#relighting

0:04

Neural Gaffer: Relighting Any Object via Diffusion

Казалось бы, у нас уже есть IC-light, ан нет, он недостаточно хорош. А кто хорош? Neural Gaffer делает релайтинг по одному изображению. Умеет релайтить картинки и nerf'ы. И делает это лучше IC-light (судя…

❤4👍2🔥2

1.96K views13:10