iMapDAY – Telegram
iMapDAY
267 subscribers
292 photos
29 videos
1 file
95 links
Сделал канал для размещения новостей от меня @yuddim и моей команды, занимающейся трехмерным компьютерным зрением роботов и автомобилей. Также давно хотелось собирать в одном месте интересные для меня научные публикации и технологические заметки.
Download Telegram
В прошлую субботу на ЛЦТ Фест объявили победителей Хакатонов "Лидеры Цифровой Трансформации" (см. видео): наша команда ITL-Mapper стала призером по направлению "Редактор лидарных карт для автоматического удаления динамических объектов", заняв 2 место среди 38 команд! 🍾🎉

За три недели мы реализовали алгоритмы нейросетевой сегментации облаков точек, которые были получены с лидара, установленного на беспилотном трамвае в Москве. Мы даже успели добавить в наше десктопное приложение сегментацию по клику мыши на основе относительно свежего метода PointSAM.

В команду вошли Владислав Дюжев, Александр Лазарев, Леонид Иванов, Виталий Илюхин и я. Хочу отметить самоотверженность, с которой ребята подошли к решению задачи и теперь даже независимо от оценок жюри мы имеем собственный полезный инструмент для удаления динамических объектов с уличных карт, что уже протестировано на данных электрической газели.

PS. Код решения мы планируем в ближайшее время выложить в открытый доступ

#Activities #Challenge
🔥10
Итак, настало время постов с прошедшей на прошлой неделe конференции IROS.

И открывает их хокку, на которое вдохновил меня Сергей Марков 😉

Лежит под столом
Скомканный утром постер -
Лишь новый висит.
🔥51
Пост про тренды IROS-2025. Вообще IROS охватывает практические любые темы по интеллектуальной робототехнике (всего в сборнике трудов 2672 доклада, и это не считая воркшопов, которых было несколько десятков). Я анализировал тренды по компьютерному зрению, и по каждому из них выбрал по паре релевантных статей с открытым кодом, которые можно попробовать.

Тренд 1. Эффективные пространственные представления, такие как нейронные поля яркости, визуально-языковые мультимодальные признаки, позволяют повышать качество распознавания объектов/сцены роботами

- FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields (Award Finalist) (статья)(проект). Авторы: Lukas Meyer, Andrei-Timotei Ardelean, Tim Weyrich, and Marc Stamminger (Friedrich‑Alexander‑Universität Erlangen‑Nürnberg‑Fürth). В этой статье авторы показали, что применение нейронных полей яркости NeRF вместе с семантической информацией о масках объектов, позволяет повысить качество обнаружения и подсчета фруктов.

- Zero-Shot Semantic Segmentation for Robots in Agriculture (Award Finalist) (статья)(код ) Авторы: Yue Linn Chong, Lucas Nunes, Federico Magistri, Xingguang Zhong, Jens Behley, Cyrill Stachniss (University of Bonn, Lamarr Institute for Machine Learning and Artificial Intelligence). В этой работе продемонстрировано, что концепция Bag-of-Features на основе SAM+BioCLIP (извлечения визуально-языковых признаков) позволила решить проблему сегментации аномальных объектов, которых не было в обучающей выборке.

- К этому тренду в некоторой степени относится наша работа PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching (статья)(код). Авторы: K.Mouraviev, A. Melekhin, D.Yudin, K. Yakovlev (MIPT, AIRI, FRC CSC RAS, HSE) . В ней мы показали, что использование мультимодальных представлений данных камеры и лидара позволяет более качественно решать задачи распознавания места и построения топологической карты. Прикладываю фото с нашего постера со всеми соавторами.

#IROS2025 #Papers
🔥3
Тренд 2. Активное очувствление, которое предполагает управление перемещением робота / сенсора, чтобы максимизировать качество алгоритмов очувствления, например, сегментации, детекции, 3D/4D реконструкции

- ActiveGS: Active Scene Reconstruction Using Gaussian Splatting (статья)(код). Авторы: Liren Jin; Xingguang Zhong; Yue Pan; Jens Behley; Cyrill Stachniss; Marija Popovic (University of Bonn, TU Delft). В этой работе показано, что активное управление камерой позволяет более качественно реконструировать сцену (например, с помощью гауссовского сплаттинга) благодаря учету недореконструированных и неисследованных областей.

- ViewActive: Active viewpoint optimization from a single image (статья)(код-ожидается). Авторы: Jiayi Wu, Xiaomin Lin, Botao He, Cornelia FermÅNuller, Yiannis Aloimonos (University of Maryland). В этой статье продемонстрировано, что трехмерное поле ракурсов позволяет создать планировщик который постепенно улучшает видимость объекта и качество его распознавания.

#IROS2025 #References
🔥2
Тренд 3. Навигация в открытом мире (Open World Navigation) на пересеченной местности, в условиях динамических препятствий и изменяющейся среды.

- Autonomous Hiking Trail Navigation Via Semantic Segmentation and Geometric Analysis (Award Finalist) (статья)(датасет) Авторы: Reed, Camndon; Tatsch, Christopher; Gross, Jason ; Gu, Yu (West Virginia University). В этой работе показано, что построение семантической 3D-карты по данным камеры и лидара позволяют более эффективно решать задачу планирования на пересеченной местности.

- DRACo-SLAM2: Distributed Robust Acoustic Communication-Efficient SLAM for Imaging Sonar Equipped Underwater Robot Teams with Object Graph Matching (Award Finalist) (код) Авторы: Huang, Yewei (Dartmouth College), McConnell, John (United States Naval Academy) Lin, Xi; Englot, Brendan (Stevens Institute of Technology). В этой работе продемонстрировано, что построение графа подводных объектов на основе процедуры кластеризации позволяет повысить качество глобальной локализации подводного робота.

- MR-COGraphs: Communication-efficient Multi-Robot Open-vocabulary Mapping System via 3D Scene Graphs. (статья)(код) Авторы: Gu, Q., Ye, Z., Yu, J., Tang, J., Yi, T., Dong, Y., ... & Wang, Y. (Tsinghua University). Эта статья иллюстрирует, что совместное построение 3D графов сцены несколькими роботами позволяет повысить качество построения семантических карт.

#IROS2025 #References
🔥3
Тренд 4. Моделирование (симуляция) 3D-мира с большим разнообразием объектов, воспроизведением их физических свойств и динамических взаимодействий. Это особенно полезно для эффективного обучения систем навигации и управления роботов и беспилотных автомобилей.

- Neural MP: A Neural Motion Planner (Award Finalist) (статья)(проект) Авторы: Murtaza Dalal,Jiahui Yang,Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak (Carnegie Mellon University) . Эта работа демонстрирует, что предварительное обучение на корректно подготовленных 3D-симуляциях манипуляционных сред позволяет значительно повысить Success Rate для задачи планирования действий манипулятора.

- AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems (Award Finalist) (статья)(проект)(код) от большой команды AgiBot-World Team. Здесь показано, что корректная генерация и аннотация данных о трехмерном мире из режима телеуправления разными роботами может лежать в основе платформ для обучения фундаментальных моделей для роботов.

- RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning (статья)(проект) Авторы: Haoran Geng et al. (Berkley, Stanford, etc). Эта масштабная работа показывает, что создание единых симуляционных платформ объединяющих большое количество сред дает путь к разработке более надежных фундаментальных моделей для управления роботами.

#IROS2025 #References
🔥2
Тренд 5. Анализ 4D (динамических, изменяющихся) сцен для методов локализации, реконструкции и построения карт местности, рендеринга и генерации пространственной информации.

- Embracing Dynamics: Dynamics-Aware 4D Gaussian Splatting SLAM (статья)(код). Авторы: Sun, Zhicong; Lo, Jacqueline Tsz Yin (The Hong Kong Polytechnic University); Hu, Jinxing (Shenzhen Institutes of Advanced Technology). В этой работе показано, что учет временной составляющей при трехмерной реконструкции сцены позволяет создавать более качественные методы SLAM в динамических средах.

- Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation (статья)(код). Авторы: Kim, Jaeyeul; Woo, Jungwan (DGIST); Shin, Ukcheol; Oh, Jean (Carnegie Mellon University); Im, Sunghoon (DGIST). Здесь продемонстрировано, что использование 4D-воксельного представления позволило существенно повысить качество распознавания движущихся объектов в лидарных облаках точек.

#IROS2025 #References
👍4