Robot Learning – Telegram
Robot Learning
81 subscribers
2 photos
37 links
О робототехнике и AI в робототехнике
Download Telegram
Управление на основе прогнозирующих моделей (Model Predictive Control, MPC) — это продвинутая техника управления, использующая модель системы (например, динамику робота) и методы численной оптимизации для выбора действий, направляющих систему к желаемому поведению.

В зависимости от области — будь то теория управления или информатика — тип используемых методов оптимизации может различаться. Специалисты по управлению часто используют оптимизацию на основе градиента, которая требует якобиана и, желательно, гессиана динамики, функции стоимости и ограничений. Напротив, информатики часто применяют оптимизацию на основе выборки или методы нулевого порядка.

Обе группы — и те, кто использует методы на основе градиента, и те, кто использует методы на основе выборки — имеют веские аргументы в пользу своих подходов. Сторонники методов на основе градиента утверждают, что их подход обеспечивает лучшую сходимость и лучшее удовлетворение ограничений. Сторонники методов на основе выборки утверждают, что их метод лучше избегает локальных минимумов и даже находит глобальные оптимумы. Кроме того, оптимизация нулевого порядка проще в реализации, требуя только прямого моделирования и оценки стоимости, включая ограничения. И наконец, она может легко справляться с разрывными динамическими системами, такими как контакты в манипулировании объектами.

В зависимости от конкретной задачи оба метода могут давать отличные результаты. Однако, если ваша модель неточная, то ни один из них вас не спасет.
🔥2🌭2🍓2🍾1
На этой неделе появилось несколько впечатляющих видео по гуманоидным роботам. Одна из причин, помимо их доступности, почему исследования в этой области так интенсивны, — схожесть этих роботов с человеком. Благодаря этому можно использовать естественные демонстрации человека и проецировать их на робота. В будущем, возможно, будет использоваться видео из интернета, снятое от первого лица!

Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.

сайт проекта
🔥7🐳1🌭1
Похожий проект вышел вышел от группы Челси Финн из Стенфорда. По сравнению с работой из предыдущего поста, здесь используют только обучение по демонстрациям с использование трансформерной архитектуры.

сайт проекта
🍓4🌭31🤓1👻1
Наверняка многие из вас видели крутые видео с Атласом, где он выполняет сальто, прыгает по коробкам и т.д. За всеми этими результатами стоит управление на основе прогнозирующих моделей. На практике эти контроллеры часто могут быть слишком медленными для работы в реальном времени. Однако, существует множество способов их ускорить, и вот несколько из них:

1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.

2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).

3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.

4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.

5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.
🍓4🌭2👍1🔥1
Существует похожая работа из академии, где подробно объясняют, как им удалось натренировать такой контроллер.
🍓3🔥2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, рад поделиться, что две мои работы были приняты на вторую по величине конференцию по робототехнике — IROS. В одной из работ мы моделируем деформируемые объекты, как на видео. В другой предлагаем способ аппроксимации контроллера на основе прогнозирующих моделей (MPC) для гибких роботов.
🔥142🌭1
С текущими темпами не за горами будущее, когда двуногие роботы станут повсеместным явлением. Дальновидные ученые уже разрабатывают стратегии для их совместной работы. Результаты впечатляют!
👍4😱2🌭1🙈1
Разбираем сходства и различия между управлением на основе прогнозирующих моделей (model predictive control, MPC) и обучением с подкреплением (reinforcement learning, RL).

Сходства:

- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).

- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.

Различия:

- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.

- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.

- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.

- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.

- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.
👍3🌭31🏆1
Апдейт по стажировке

Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.

В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.

Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.

Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.

Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.
🔥9🍓21🌭1
Автономный дрифт от Toyota Research Institute

Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.
🌭43
Давно ничего не писал — основной причиной была PhD диссертация, которую хочу поскорее завершить. Начал писать её ещё до стажировки. Выбрал самый ленивый путь: написал введение, background и скомпилировал все статьи, где я первый автор. Последний месяц занимался доработкой введения и background, которые не очень понравились научнику, и писал заключение.

Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.

Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.
👍8🔥2🎉21🍓1
Команда из DeepMind научила робота играть в настольный теннис. Несколько недель назад их работа прогремела в новостях с заголовками "прорыв". На деле, робот смог обыграть всех новичков и около половины игроков среднего уровня.

Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.

Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!
4🫡3
На данный момент обучение с подкреплением в симуляции — основной метод управления шагающими роботами. Однако контроллер, идеально работающий в симуляции, может не справиться на реальном роботе. Этот феномен называется разрывом между симуляцией и реальностью (simulation to real, или sim2real gap). Причины могут быть следующие:

1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.

2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.

3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.

4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.

5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.

6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.

7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.

Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.
5👍5
Вышло новое видео (и статья) от Disney Research про генерацию реалистичных движений робоперсонажей с использованием диффузионных моделей.
💅4🔥1🌭1
На этой неделе побывал на одной из крупнейших конференций по робототехнике — IROS, которая в этом году впервые прошла на Ближнем Востоке, в Абу-Даби. Представлял свои работы: сначала выступил с трёхминутным тизером, а затем в течение двух часов стоял у постера, объясняя детали заинтересованным коллегам. Я всегда критично отношусь к своим результатам, поэтому не ожидал большого ажиотажа. В итоге нашлось около 15 человек, которым моя работа показалась интересной.

К сожалению, организация конференции оставляла желать лучшего. В первые два дня многим не хватило еды, а на банкете — мест за столами, приходилось сидеть где попало. Зона для постеров была тесной, а интернет — крайне ненадёжным, что приводило к постоянным сбоям у онлайн-спикеров.

Тем не менее, я рад, что сьездил; удалось приятно пообщаться с интересными студентами из разных университетов, друзьями и бывшими коллегами.
👍12🔥8💯1
Трансформеры, без сомнения, одни из самых успешных моделей в машинном обучении. За ChatGPT и другими большими языковыми моделями стоит именно трансформер. На IROS, когда я пару раз спрашивал о том, как коллегам удалось добиться впечатляющих результатов, мне отвечали: "Просто накормили трансформеру данные — и вуа-ля, успех!"

Поскольку мне пора начинать искать работу, я решил разобраться в архитектуре трансформера. Вот лучшие ресурсы, которые мне удалось найти:

1️⃣ Визуальное объяснение от 3Blue1Brown — без сложной математики, но с красивыми иллюстрациями.

2️⃣ Известная статья The Illustrated Transformer от Jay Alamar. Даже многие университетские курсы ссылаются на эту статью.

3️⃣ Подробное объяснение с иллюстрациями и математикой от Елены Войты.

4️⃣ Статья от Гарварда The Annotated Transformer для тех, кто хочет реализовать трансформер на PyTorch.

5️⃣ Пояснения в книгах Understanding Deep Learning
и Deep Learning: Foundations and Concepts тоже показались мне доступными и полезными.
👍111🥰1
Forwarded from DeepSchool
🎞 Гессиан. Видео

Методы второго порядка используют вторые производные функции потерь. Важный элемент этих методов — гессиан. Он и является второй производной по параметрам модели.

Главная проблема гессиана — его долго считать. Учёные придумали различные методы для его аппроксимации, чтобы экономить вычисления. А недавно появились и алгоритмы оптимизации, которые используют эти аппроксимации.

О методах второго порядка мы и записали наше новое видео!

В нём Шамиль Мамедов, исследователь из Amazon Robotics, напоминает теорию численной оптимизации и рассказывает про методы приближения гессиана. А также проходится по Sophia — свежему оптимизатору, который использует методы второго порядка.

Смотрите новое видео на Youtube!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍42
Forwarded from DeepSchool
Почему RL — это сложно? И как Decision Transformer меняет правила игры

Обучение с подкреплением (RL) часто звучит как магия: агент учится решать задачи через взаимодействие с окружающей средой. Тыкнул сюда, получил минус балл, постараюсь больше так не делать. Тыкнул сюда, получил плюс балл — о, повторю!

Но в реальности всё сложнее. Представьте робота, которому нужно научиться управлять автомобилем. Для обучения требуется симулятор, который моделирует дорожные условия. Создать его — задача не из лёгких: это дорого, долго, а иногда просто невозможно. Более того, ошибки агента в симуляторе могут не просто «остаться в игре», но привести к серьёзным последствиям, если перенести их в реальный мир.

Допустим, вы хотите обучить робота доставлять посылки. Если он учится в реальном мире, то каждое «неудачное» действие — это разбитый аппарат. А симуляторы часто слишком далеки от реальности, и агент начинает пользоваться их несовершенствами, что делает результаты обучения неприменимыми.

Альтернативный способ для создания умных агентов: агент учится воспроизводить траектории, созданные человеком. Проблема в том, что он может лишь копировать, но не создавать новые стратегии для достижения лучших результатов. RL, наоборот, строит стратегии сам, но упирается в проблему сложности и дороговизны.

Decision Transformer (DT) как раз призван решить эту проблему, генерируя на основе имеющихся данных новые стратегии. Он использует идеи RL и переформулирует проблему RL как задачу генерации последовательности.

Проще говоря, вместо «учимся через ошибки», DT говорит: «Вот данные о прошлом опыте, вот цель в виде суммы будущих наград — давайте сгенерируем траекторию, которая достигнет цель».

И это совершенно новый способ решения задач по управлению роботами. Подробнее о нём мы рассказали в новой статье: https://deepschool-pro.notion.site/Decision-Transformer-92feae6bd93d42da997cd44653f92a74?pvs=4
8🔥4