🎓 — Семинар 5. Safe RL and Multi-modal Safe RL | Григорий Горбов
Одной из основных проблем применения методов RL на реальных роботах является учёт безопасности. Доклад посвящен методам безопасного RL (Safe RL), а также набирающей популярность области Multi-modal Safe RL.
Аспирантом нашего Центра будет представлен обзор последних работ по Safe RL, Multi-modal Safe RL, а также последние наработки нашей команды в этих областях.
4️⃣ Гитхаб
👉🏻 Дата: 02.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#RL
Одной из основных проблем применения методов RL на реальных роботах является учёт безопасности. Доклад посвящен методам безопасного RL (Safe RL), а также набирающей популярность области Multi-modal Safe RL.
Аспирантом нашего Центра будет представлен обзор последних работ по Safe RL, Multi-modal Safe RL, а также последние наработки нашей команды в этих областях.
👉🏻 Дата: 02.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#RL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1❤🔥1👍1
Отборочный этап стартует 14 ноября, так что начинайте готовиться уже сейчас — смотрите задания прошлых лет по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥2
Forwarded from iMapDAY
Media is too big
VIEW IN TELEGRAM
Напишу что-нибудь новенькое про методы 3D компьютерного зрения:
Позавчера авторы из Microsoft Research, Harvard и Tsinghua University выложили код SOTA-модели MoGe-2 для реконструкции метрической карты глубин и карты нормалей из монокулярных изображений, статья про которую была принята на Neurips 2025. Демо выглядит впечатляющим. Эта модель - развитие метода MoGe, представленного на СVPR2025.
Статья: MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details, Neurips 2025, https://arxiv.org/abs/2507.02546
Проект: https://wangrc.site/MoGe2Page/
Код: https://github.com/microsoft/moge
В качестве бонуса, приведу также ссылку на другую свежую модель UniK3D, позволяющую делать консистентную реконструкцию карт глубин по монокулярной видеопоследовательности, статья про которую также была принята на CVPR2025
#References
Позавчера авторы из Microsoft Research, Harvard и Tsinghua University выложили код SOTA-модели MoGe-2 для реконструкции метрической карты глубин и карты нормалей из монокулярных изображений, статья про которую была принята на Neurips 2025. Демо выглядит впечатляющим. Эта модель - развитие метода MoGe, представленного на СVPR2025.
Статья: MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details, Neurips 2025, https://arxiv.org/abs/2507.02546
Проект: https://wangrc.site/MoGe2Page/
Код: https://github.com/microsoft/moge
В качестве бонуса, приведу также ссылку на другую свежую модель UniK3D, позволяющую делать консистентную реконструкцию карт глубин по монокулярной видеопоследовательности, статья про которую также была принята на CVPR2025
#References
👍5❤4
🎓 — Семинар 6. Реконструкция семантических 3D-сцен: Оптимизация и анализ признаков, методы гауссовского сплаттинга | Виталий Илюхин
В рамках семинара магистром нашего Центра будет представлен краткий анализ современных подходов к представлению и реконструкции 3D-сцен, включая трёхмерный, двумерный гауссовский сплаттинг и гибридные подходы.
Подробно будет рассмотрена обновлённая версия системы для решения задачи семантической (open-vocabulary) 3D-реконструкции сцены в реальном времени. Система построена на объединении гауссовского сплаттинга (Gaussian Splatting), методах сжатия визуально-языковых признаков (например, DINOv2, CLIP) и технологии одновременной локализации и построения карты (SLAM). Для достижения высокой скорости работы используется обучаемый компрессор на основе нейросетевого автоэнкодера, который эффективно сжимает семантические признаки, минимизируя вычислительные затраты.
👉🏻 Дата: 09.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#CV #SLAM
В рамках семинара магистром нашего Центра будет представлен краткий анализ современных подходов к представлению и реконструкции 3D-сцен, включая трёхмерный, двумерный гауссовский сплаттинг и гибридные подходы.
Подробно будет рассмотрена обновлённая версия системы для решения задачи семантической (open-vocabulary) 3D-реконструкции сцены в реальном времени. Система построена на объединении гауссовского сплаттинга (Gaussian Splatting), методах сжатия визуально-языковых признаков (например, DINOv2, CLIP) и технологии одновременной локализации и построения карты (SLAM). Для достижения высокой скорости работы используется обучаемый компрессор на основе нейросетевого автоэнкодера, который эффективно сжимает семантические признаки, минимизируя вычислительные затраты.
👉🏻 Дата: 09.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#CV #SLAM
❤7🔥1
Forwarded from Будни Дикого
Ещё не выходные, а уже приключения)
Сейчас идёт конкурс НТИ по археологии. Задача - роботом находить предметы и объекты раскопок. Это в целом сложная наука, и в нее пытаются внедрять современные подходы.
Наша лаба решила участвовать, я руководитель команды TerraCognitaBot. Команда из 8 человек, где есть как магистры, так и пенсионеры))
Мы прошли в финал и начали сегодня был наш первый тестовый заезд на полигоне в Нахабино)
Все, поставленные на сегодня задачи были выполнены, но конечно есть ещё что улучшать).
На следующей неделе у нас ещё один заезд и соревы. Держим кулачки!
Как бонус - фото, способ защиты робота от дождя (реально рабочий и даже буераки нормально проезжает)
Сейчас идёт конкурс НТИ по археологии. Задача - роботом находить предметы и объекты раскопок. Это в целом сложная наука, и в нее пытаются внедрять современные подходы.
Наша лаба решила участвовать, я руководитель команды TerraCognitaBot. Команда из 8 человек, где есть как магистры, так и пенсионеры))
Мы прошли в финал и начали сегодня был наш первый тестовый заезд на полигоне в Нахабино)
Все, поставленные на сегодня задачи были выполнены, но конечно есть ещё что улучшать).
На следующей неделе у нас ещё один заезд и соревы. Держим кулачки!
Как бонус - фото, способ защиты робота от дождя (реально рабочий и даже буераки нормально проезжает)
🔥12👍5❤2👏1
Конференция объединила исследователей ИИ со всей России. И наши ребята внесли свой вклад, представив работы Центра и партнёров:
Подход под названием BBQ (Beyond Bare Queries) помогает в решении проблемы автономных агентов по поиску объектов, неоднозначно описанных на естественном языке. Он создает представление 3D-сцены в виде графа с метрическими и семантическими пространственными связями и задействует крупную языковую модель в качестве интерфейса «человек-агент» через наш алгоритм дедуктивного анализа сцены.
Метод, который объединяет графовое планирование с динамическим обновлением сцены, позволяет роботу адаптироваться к изменяющейся среде и корректировать план действий в процессе выполнения задачи.
Новый метод M3PO, расширяющий классическую архитектуру Proximal Policy Optimization (PPO), в которой объединены мультизадачность и модель мира, которую робот выучивает в процессе взаимодействия при онлайн-обучении. В результате метод обеспечивает быстрое обучение компактных с точки зрения количества параметров стратегий, пригодных для быстрого развертывания на робототехнических манипуляторах.
CrafText — бенчмарк для оценки способности агентов следовать инструкциям в мультимодальной среде с разнообразными заданиями и динамическим взаимодействием. CrafText включает 3924 инструкции, содержащие 3423 уникальных слова, и охватывает задачи из разных областей.
Обработка неоднозначных инструкций в реальных условиях представляет сложность для LLM. Существуют различные методы выявления неоднозначности задач, однако их сравнение затруднено из-за использования разных наборов данных и отсутствия универсального эталона. Решить эту проблему поможет AmbiK (Ambiguous Tasks in Kitchen Environment) — полностью текстовый набор данных, содержащий неоднозначные инструкции, предназначенные для робота в кухонной среде.
#CV #VLM #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥5❤2
🎓 — Семинар 7. Multi-agent foundation models | Мария Нестерова
Современные подходы в многоагентном обучении с подкреплением требуют разработки отдельных моделей для каждой конкретной среды, что ограничивает их масштабируемость и эффективность. Задача создания общей модели заключается в разработке единой трансформерной архитектуры, способной обучаться на обширных офлайн-данных и успешно решать разнообразные многоагентные задачи.
В первой части выступления аспиранткой нашего Центра будет представлен обзор современных подходов к многоагентному обучению с подкреплением, основанных на архитектуре трансформер. Особое внимание будет уделено уникальным особенностям многоагентных систем, которые возникают при адаптации методов на основе трансформеров к задачам с участием нескольких агентов.
Дополнительно в докладе будет рассмотрен вопрос генерализации моделей на различные задачи и среды. Во второй части доклада будет представлен метод MARL-GPT, который позволяет обучить единую модель для разных сред, учитывающую разнородность наблюдений через специальное позиционное кодирование. Обучение проводится на заранее собранном офлайн-датасете из трёх многоагентных сред (POGEMA, SMACv2, GRF).
👉🏻 Дата: 16.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#RL
Современные подходы в многоагентном обучении с подкреплением требуют разработки отдельных моделей для каждой конкретной среды, что ограничивает их масштабируемость и эффективность. Задача создания общей модели заключается в разработке единой трансформерной архитектуры, способной обучаться на обширных офлайн-данных и успешно решать разнообразные многоагентные задачи.
В первой части выступления аспиранткой нашего Центра будет представлен обзор современных подходов к многоагентному обучению с подкреплением, основанных на архитектуре трансформер. Особое внимание будет уделено уникальным особенностям многоагентных систем, которые возникают при адаптации методов на основе трансформеров к задачам с участием нескольких агентов.
Дополнительно в докладе будет рассмотрен вопрос генерализации моделей на различные задачи и среды. Во второй части доклада будет представлен метод MARL-GPT, который позволяет обучить единую модель для разных сред, учитывающую разнородность наблюдений через специальное позиционное кодирование. Обучение проводится на заранее собранном офлайн-датасете из трёх многоагентных сред (POGEMA, SMACv2, GRF).
👉🏻 Дата: 16.10.25, четверг в 17:00
📹 Трансляция: Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#RL
🔥7