🎓 — Семинар 12. Leveraging Single and Multi-Task RL Algorithms for Mobile-Aloha Robot | Aditya Narendra
Traditional Reinforcement Learning (RL) methods often require careful algorithm design, hyper-parameter tuning, and experimentation to perform optimally across multiple tasks. Multi-task models, however, offer increased efficiency, better generalization, and improved resource utilization, which are crucial for robots performing diverse autonomous tasks. On the other hand, single-task models often demonstrate better results and more robust task-specific policies.
In this paper, we demonstrate the versatility of these models through experiments on the Mobile Aloha robot, which has both manipulation and navigation capabilities. The main idea behind our work is to demonstrate the use of various types of RL algorithms (single and multi-task) for multi-control robots (in our case, Mobile Aloha) which has not been explored much in the past. The presentation would include the work done in two different simulators: Mujoco and Isaac-Sim.
👉🏻 Дата: 28.11.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #RL
Traditional Reinforcement Learning (RL) methods often require careful algorithm design, hyper-parameter tuning, and experimentation to perform optimally across multiple tasks. Multi-task models, however, offer increased efficiency, better generalization, and improved resource utilization, which are crucial for robots performing diverse autonomous tasks. On the other hand, single-task models often demonstrate better results and more robust task-specific policies.
In this paper, we demonstrate the versatility of these models through experiments on the Mobile Aloha robot, which has both manipulation and navigation capabilities. The main idea behind our work is to demonstrate the use of various types of RL algorithms (single and multi-task) for multi-control robots (in our case, Mobile Aloha) which has not been explored much in the past. The presentation would include the work done in two different simulators: Mujoco and Isaac-Sim.
👉🏻 Дата: 28.11.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #RL
🔥5
🎓 — Семинар 13. Использование графа сцены для нейросетевой навигации робота | Никита Осколков, Zhang Huzhenyu
В последнее время для робототехнических задач навигации и манипулирования все активнее используются методы, основанных на картах знаний и обучении с подкреплением. В докладе будут представлены передовые подходы к построению графов 3D-сцен и рассказано об их применении в задачах управления и принятии решений роботом. Будет описан генератор графов, разработанный в фотореалистичном симуляторе Isaac Sim.
Также будет представлен практический опыт использования метода построения карты знаний BBQ на пользовательском наборе данных из симулятора Isaac Sim, который демонстрирует универсальность подхода на различных примерах.
Кроме того, мы обсудим базовые подходы обучения с подкреплением в задаче навигации робота по изображениям бортовой камеры. Наконец, рассмотрим влияние использования карт знаний в сценариях, где входные данные навигационной модели включают текстовые описания задач или маски объектов.
👉🏻 Дата: 05.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #RL
В последнее время для робототехнических задач навигации и манипулирования все активнее используются методы, основанных на картах знаний и обучении с подкреплением. В докладе будут представлены передовые подходы к построению графов 3D-сцен и рассказано об их применении в задачах управления и принятии решений роботом. Будет описан генератор графов, разработанный в фотореалистичном симуляторе Isaac Sim.
Также будет представлен практический опыт использования метода построения карты знаний BBQ на пользовательском наборе данных из симулятора Isaac Sim, который демонстрирует универсальность подхода на различных примерах.
Кроме того, мы обсудим базовые подходы обучения с подкреплением в задаче навигации робота по изображениям бортовой камеры. Наконец, рассмотрим влияние использования карт знаний в сценариях, где входные данные навигационной модели включают текстовые описания задач или маски объектов.
👉🏻 Дата: 05.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #RL
🔥6
Forwarded from Grounding Knowledge 🦾
Теперь можно сказать официально - команда Автороботикс в составе крутых инженеров из МАДИ и блестящих AI-специалистов из Центра когнитивного моделирования МФТИ преодолела (хоть и частично) технологический барьер и стала победителем технологического конкурса НТИ 5 уровень. Среди 8 участников, включая Иннополис и ЛЭТИ, наша электрическая газель под управлением интеллектуальной системы единственная в полностью автномном режиме в реальной дорожной ситуации перевезла полтонны груза без нарушений ПДД на почти сотню км с макимальной скоростью 90 км/ч🚛. И это без сотен тысяч часов наката по одному маршруту и без тысяч тереабайтов данных для обучения как у Яндекса или Теслы. Все эффективнее и надежнее🦾. Команда замечательных профессионалов - горд, что смог с вами поработать! Молодцы!🙌
🔥29👏4🎉3🐳1
🎓 — Семинар 14. Transformer-based online RL | Никита Качаев, Даниил Зелезецкий
Трансформерные модели показали прорывные результаты в различных областях машинного обучения благодаря способности учитывать длительные временные зависимости и эффективно масштабироваться, что делает их применение перспективными для обучения с подкреплением. В задачах RL трансформеры способны улучшить способность агента к памяти, генерализацию и принятие решений на основе долгосрочной истории взаимодействий
Однако, внедрение трансформеров в RL сталкивается с рядом трудностей. Среди главных вызовов — нестабильность обучения, сложность оптимизации и высокая вычислительная стоимость. В докладе будет рассмотрен текущий прогресс в использовании трансформерных моделей для задач онлайн обучения с подкреплением и сделан обзор работ по on-policy/off-policy методам. Обсуждение охватит ключевые преимущества а также ограничения применения трансформерных моделей в онлайн RL
👉🏻 Дата: 12.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #transformers #RL
Трансформерные модели показали прорывные результаты в различных областях машинного обучения благодаря способности учитывать длительные временные зависимости и эффективно масштабироваться, что делает их применение перспективными для обучения с подкреплением. В задачах RL трансформеры способны улучшить способность агента к памяти, генерализацию и принятие решений на основе долгосрочной истории взаимодействий
Однако, внедрение трансформеров в RL сталкивается с рядом трудностей. Среди главных вызовов — нестабильность обучения, сложность оптимизации и высокая вычислительная стоимость. В докладе будет рассмотрен текущий прогресс в использовании трансформерных моделей для задач онлайн обучения с подкреплением и сделан обзор работ по on-policy/off-policy методам. Обсуждение охватит ключевые преимущества а также ограничения применения трансформерных моделей в онлайн RL
👉🏻 Дата: 12.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #transformers #RL
🔥7❤4🐳3
Forwarded from Grounding Knowledge 🦾
Сегодня для широкого круга открылась конференция AI Journey📎. Как минимум это самая освещаемая конференция по ИИ в России с серьезной научной составляющей. К ней приурочили много разных событий🎇: запуск нового грузовика Navio, новые модели в бенчмарке Мера от Т-банка и МТС, новый роботы от Центра робототехники Сбера, запуск альянса альянсов ИИ и др. Очень импонирует девиз - "ИИ помогает" - людей не заменяют, а помогают им делать их задачи. На пленарные доклады позвали и иностранцев из БРИКС++, запомнился оригинальный "Шмидхубдранат" в стиле с кепкой. Яндекс вспоминал как же ИИ за эти годы улучшил поиск, перевод и предсказание пробок. От AIRI Андрей Кузнецов разложил по полочкам задачки в генеративном проектировании. Подписали сегодня и соглашение о принципах разработки роботов общего назначения🤖 . Отметилась и наша команда в постерной сессии, а завтра расскажем про поведенческие модели - подключайтесь в трансляцию!📺
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Подключайтесь к выступлению руководителя нашего Центра Александра Панова на AIJ!
https://aij.ru/program?concreteDate=2024-12-13
https://aij.ru/program?concreteDate=2024-12-13
🔥9
Forwarded from BaseLine
This media is not supported in your browser
VIEW IN TELEGRAM
А это я собираю данные на Алохе в режиме телеуправления по видео с камеры манипулятора (экранчик внизу) — непростая задача 😅
🔥10❤1
🎓 — Семинар 15. Планирование траекторий многозвенного манипулятора в динамических средах | Нураддин Керимов, Александр Онегин
Финальный семинар этого года!🌲
На семинаре мы проведем обзор методов планирования многозвенных роботов-манипуляторов в динамических средах, делиберативного и реактивного семейства. Расскажем про разработанный нами делиберативный планировщик Safe-Interval RRT, который объединяет в себе идеи двунаправленного быстрого исследования пространства, идею нахождения безопасных интервалов (известная идея эвристического поиска), а также технику быстрого нахождения безопасных интервалов.
Мы приводим результаты массового тестирования нашего планировщика и показываем, что он превосходит SOTA методы по времени работы, количеству успешно решённых тестов и качеству решений.
👉🏻 Дата: 19.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #planning
Финальный семинар этого года!
На семинаре мы проведем обзор методов планирования многозвенных роботов-манипуляторов в динамических средах, делиберативного и реактивного семейства. Расскажем про разработанный нами делиберативный планировщик Safe-Interval RRT, который объединяет в себе идеи двунаправленного быстрого исследования пространства, идею нахождения безопасных интервалов (известная идея эвристического поиска), а также технику быстрого нахождения безопасных интервалов.
Мы приводим результаты массового тестирования нашего планировщика и показываем, что он превосходит SOTA методы по времени работы, количеству успешно решённых тестов и качеству решений.
👉🏻 Дата: 19.12.24, четверг в 17:00
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #robotics #planning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
⚡️— Начинаем финальный семинар в этом году, присоединяйтесь!🌲
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Forwarded from Embodied AI Reading Club
Всем привет!🔥
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
🔺 Общие выводы
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
Поздравляем наших дорогих подписчиков с наступающим Новым Годом и Рождеством! 🥳
Желаем побольше интересных инсайтов, побольше свободных карт для экспериментов, полезных рецензий и акцептов, конечно, побольше! Ура!
🎄🇷🇺 🎄
Желаем побольше интересных инсайтов, побольше свободных карт для экспериментов, полезных рецензий и акцептов, конечно, побольше! Ура!
🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉21❤8
А вот и первые акцепты!🎉
Please open Telegram to view this post
VIEW IN TELEGRAM