ᴢɪᴘ ʟᴏɢ – Telegram
ᴢɪᴘ ʟᴏɢ
150 subscribers
97 photos
49 videos
6 files
102 links
IT, AI, Robots
Download Telegram
Когда Стивен снимал пародийное видео про призраков, он и не подозревал, что однажды сам им станет!👻

А всё благодаря ProPainter - бесплатному средству удаления объектов в видео.
Эта задача давно и глубоко изучается. Но это решение показывает прекрасный уровень Open Source, подходящий для некоторых практических применений. Поэтому если вам нужно:
убрать логотипы
выделить фон из видеопотока для последующего использования в играх или задаче реконструкции
убрать лишние объекты с видеосъёмки
То пробуйте демо, в котором от пользователя требуется загрузить видео и интерактивно разметить маски на одном кадре.
Мои впечатления от демки:
низкое время работы
высокая точность (артефактов почти нет)
демка иногда падает, если накликать много точек в изначальной сегментации
не работает с длинными видео

Детали и пояснения
Предыдущие решения на основе потока оперировали или только на домене изображений или на домене признаков, а трансформеры требовали много ресурсов:
- При глобальном распространении на домене изображений возникали артефакты из-за неточностей оптического потока
- Трансформеры не позволяли заглядывать в сильно удалённые в прошлое кадры
В статье представили модель DDP (двухдоменное распространение для изображений и признаков) - разделение потока вычисления на область изображений и область признаков с их дальнейшим объединением.
А также представили MSVT (разреженный видеотрансформер) - для оптимизации памяти и вычислений).
По метрике PSNR алгоритм превзошёл аналоги на 1.46 dB с сохранением эффективности.
Обучен на Youtube-VOS, тестирован на Youtube-VOS, Davis.
Использованные в решении концепции и модели: RAFT (модель оптического потока), RFC (завершение повторяющегося потока).

Заставлю любого исчезнуть 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Мне понравился мультфильм Spider-Man: Across the Spider-Verse (яркий, эмоциональный, динамичный и вдохновляющий фильм)

А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.

Нью-Йорк Сити особенно удался, правда?
6
Сегодня сочельник
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.

Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.

Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
9
Речь о том, что гуманоидный робот впервые приблизился к выполнению кофейного теста, который Стив Возняк, соучредитель Apple Inc., предложил в качестве эталона для оценки возможностей автономных роботов. Тест требует, чтобы робот вошел в незнакомый дом, нашел кухню, определил необходимые инструменты и ингредиенты, а затем приготовил чашку кофе. Кофейный тест проверяет способность робота ориентироваться в неизвестной среде, распознавать объекты, манипулировать инструментами и материалами и выполнять последовательность заданий для достижения определенной цели.
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Forwarded from yolo singularity
у нас только что произошел прорыв в нашей лабе

у робототехники наступает
ChatGPT moment, и этот момент наступит завтра


а может не надо 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру.
Ранее мы рассматривали метод OpenLRM.

С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление
Использование gaussian splatting даёт более быструю визуализацию, по сравнению с NeRF-представлением в OpenLRM
Декодер точки генерирует облако точек по изображению
Затем triplane-декодер строит признаки гауссиан для этих точек
Такая декомпозиция позволяет преодолеть неструктурированность результата, свойственную прямой регресии атрибутов gaussian splatting
Далее 3D-Gaussianы декодируются MLP для быстрого рендеринга
Оба декодера масштабируются и обучены на обширных 3D датасетах
Оценка показала не только увеличение качества реконструкции, но и более быстрое время рендеринга
Оценка качества
🔣Обучение производилось на Objaverse-LVIS (46K моделей, 1156 категорий). С помощью блендера генерировался GT RGBD.
🔣Оценка производилась на датасете GSO (Google Scanned Objects) всего на 100 объектах.
🔣Измерялись метрики для 3D геометрии (Chamfer distance, Volume IoU), а также метрики для изображений (PSNR, SSIM, LPIPS).
🔣Сравнение идёт с:
1️⃣3D-генеративными моделями Point-E, Shap-E
2️⃣2D-диффузионные моделями Zero-1-2-3
3️⃣моделями прямого распространения на основе выхода 2D-диффузионных моделей One-2-3-45
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
Время реконструкции 140 ms, время рендеринга 3ms (против нескольких секунд в OpenLRM)
Достигается PSNR порядка 23 (против 20 у OpenLRM)
Тестирование всего на 100 объектах
В обучении и тестах использовались 3Д объекты, а не фотографии, а значит, качество на реальных данных будет ниже
🔣🔣🔣
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
PASD - алгоритм для суперразрешения и улучшения фотографий, требующий текстовую подсказку на входе.
Статья, код, демо, колаб
На сегодняшний день это лучший алгоритм, который не портит исходное лицо.
Он предназначен для работы с фотографиями, а не с видео.

Жаль, что модель для колоризации сейчас недоступна.
🔣🔣🔣 В комментариях схема модели с пояснениями.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Media is too big
VIEW IN TELEGRAM
У шлемов виртуальной реальности в их текущем виде много полезных применений. Одно из них - геймификация привычных занятий. Пример такого решения - отечественная подводная система VRDiver (участник проекта "Сколково"),, разработанная в Екатеринбурге.
🔣Система обеспечивает полное погружение пользователя в виртуальную реальность. Согласитесь, что плавать с коралловыми рифами вокруг намного приятнее 😍 Виртуальный контент при этом обновляется.
🔣Система состоит из полнолицевой плавательной маски, трекинга 6DoF и крепления для защиты пользователя от столкновения со стенками бассейна.
🔣Уже есть клиенты в Екатеринбурге, Санкт-Петербурге, Рязани, Уфе и других городах. В Москве, к сожалению, клиентов нет, поэтому опробовать не могу.
🔣🔣🔣
С какими примерами VR-геймификации вы уже сталкивались в реальной жизни?
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Платформы разметки данных
Чтобы обучить алгоритм машинного обучения, нужно собрать датасет. Часто можно найти готовые датасеты на kaggle, наскрэппить в интернет или использовать генеративные модели. Но для некоторых задач или данных требуется ручная разметка (например, проприетарного датасета). В этом случае на помощь приходят платформы для разметки данных.

🔣Одна из таких платформ - Supervisely - позволяет делать разметку изображений, видео, лидарных облаков, DICOM и объёмных данных.
🔣Используя мощь полуавтоматической разметки, можно значительно ускорить разработку и повысить качество результирующего решения (см. картинку).
🔣С помощью Supervisely можно создать собственную платформу с интеграцией многочисленных инструментов с открытым исходным кодом (github) в единую экосистему. В Enterprise Edition поддерживаются закрытые репозитории Git для авторских приложений.
🔣Supervisely - очень прозрачная, доступная для использования платформа. Вот, например, полный тьюториал, а вот - документация. Кроме этого, у них очень хорошие блоги, в которых понятным языком описываются ключевые понятия, алгоритмы и закономерности, без избытка маркетинга.
В этой компании работает один из моих подписчиков - Максим. Он написал несколько очень неплохих блогов-постов, например 1 и 2, а также у него есть канал. Максим хорошо разбирается в современных алгоритмах сегментации. Подписывайтесь, кому интересно.

Минутка лирики.
Мне особенно греют душу примеры разметки аграрных данных, потому что это очень важная для народного хозяйства область.
С учётом близкой готовности гуманоидных роботов к работе, представляете, как здорово будет накатить им апдейт для сегментации и классификации сорняков и сидеть на веранде, пока он вкалывает под палящим солнцем?..
А чтобы это случилось, нужно готовить датасеты с листочками и стебельками.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
ᴢɪᴘ ʟᴏɢ
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру. Ранее мы рассматривали метод OpenLRM. С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление…
Вот и примеры реконструкции подъехали. В целом очень даже неплохо, даже на реальных данных! Реконструируется быстро. Думаю, уже к следующей осени появятся высокодетализированные решения, потому что для этого нужно: а) собрать больше разнообразных данных (это делается) б) сделать 3д-upscaler (это, наверняка, тоже делается внутри Adobe и других гигантов, а может и в компаниях поменьше). Так что готовимся осенью реконструировать что угодно по одной фотографии.
6