Robot Learning – Telegram
Robot Learning
81 subscribers
2 photos
37 links
О робототехнике и AI в робототехнике
Download Telegram
Помимо университетских лабораторий, несколько стартапов активно работают над решением задачи воплощенного интеллекта (embodied intelligence). Один из таких стартапов — 1x Technologies, недавно привлекший 100 млн долларов инвестиций.

Что делает их уникальными? Всё дело в железе и софте! Они разработали собственные мощные двигатели с высоким соотношением выходного момента к весу (обычно двигатели с такими параметрами очень громоздкие). А их эффективные трансмиссии, основанные на кабелях, выводят производительность на новый уровень.

В области софта они придерживаются end-to-end подхода: роботы обучаются исключительно на основе собранных данных. Поэтому они придают огромное значение качеству этих данных, которые собираются с помощью телеуправления и очков виртуальной реальности.

Хотите увидеть их роботов в действии? Посмотрите прикрепленное видео. Да, человек мог бы выполнить задачу быстрее, но достижения 1x Technologies всё равно
🔥4🍌21
Существует множество соревнований по классическому и глубокому машинному обучению. Например, на платформе Kaggle сейчас активно около 10 соревнований, где победители получают денежные призы. Помимо призов, участие в таких соревнованиях приносит престиж и признание в сообществе.

К сожалению, соревнования по управлению и обучению с подкреплением не столь распространены. Однако в последние годы на крупных робототехнических конференциях начали появляться подобные мероприятия. В прошлом году на ICRA, где мне посчастливилось побывать, проводились соревнования по сборке деталей, планированию траекторий, SLAM и складыванию повседневных вещей. Вопреки ожиданиям, в этих соревнованиях часто побеждают классические методы.

В этом году на другой крупной конференции, IROS, будет проходить соревнование по робототехнической акробатике. Цель — создать контроллер для swing-up двух underactuated платформ: акробота и пендубота. Обе платформы достаточно простые: 2 степени свободы и только один мотор. Организаторы предоставляют симулятор, в котором можно спроектировать и отладить свой контроллер. Команды, показавшие лучшие результаты в симуляции, получат доступ к реальному оборудованию и смогут протестировать свои контроллеры на железе.

Считаю, что это отличная возможность спроектировать свой любимый контроллер и сравнить его с лучшими решениями других участников. В комментариях пример swing-up акробота.
4👍3🍌3
Управление на основе прогнозирующих моделей (Model Predictive Control, MPC) — это продвинутая техника управления, использующая модель системы (например, динамику робота) и методы численной оптимизации для выбора действий, направляющих систему к желаемому поведению.

В зависимости от области — будь то теория управления или информатика — тип используемых методов оптимизации может различаться. Специалисты по управлению часто используют оптимизацию на основе градиента, которая требует якобиана и, желательно, гессиана динамики, функции стоимости и ограничений. Напротив, информатики часто применяют оптимизацию на основе выборки или методы нулевого порядка.

Обе группы — и те, кто использует методы на основе градиента, и те, кто использует методы на основе выборки — имеют веские аргументы в пользу своих подходов. Сторонники методов на основе градиента утверждают, что их подход обеспечивает лучшую сходимость и лучшее удовлетворение ограничений. Сторонники методов на основе выборки утверждают, что их метод лучше избегает локальных минимумов и даже находит глобальные оптимумы. Кроме того, оптимизация нулевого порядка проще в реализации, требуя только прямого моделирования и оценки стоимости, включая ограничения. И наконец, она может легко справляться с разрывными динамическими системами, такими как контакты в манипулировании объектами.

В зависимости от конкретной задачи оба метода могут давать отличные результаты. Однако, если ваша модель неточная, то ни один из них вас не спасет.
🔥2🌭2🍓2🍾1
На этой неделе появилось несколько впечатляющих видео по гуманоидным роботам. Одна из причин, помимо их доступности, почему исследования в этой области так интенсивны, — схожесть этих роботов с человеком. Благодаря этому можно использовать естественные демонстрации человека и проецировать их на робота. В будущем, возможно, будет использоваться видео из интернета, снятое от первого лица!

Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.

сайт проекта
🔥7🐳1🌭1
Похожий проект вышел вышел от группы Челси Финн из Стенфорда. По сравнению с работой из предыдущего поста, здесь используют только обучение по демонстрациям с использование трансформерной архитектуры.

сайт проекта
🍓4🌭31🤓1👻1
Наверняка многие из вас видели крутые видео с Атласом, где он выполняет сальто, прыгает по коробкам и т.д. За всеми этими результатами стоит управление на основе прогнозирующих моделей. На практике эти контроллеры часто могут быть слишком медленными для работы в реальном времени. Однако, существует множество способов их ускорить, и вот несколько из них:

1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.

2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).

3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.

4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.

5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.
🍓4🌭2👍1🔥1
Существует похожая работа из академии, где подробно объясняют, как им удалось натренировать такой контроллер.
🍓3🔥2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, рад поделиться, что две мои работы были приняты на вторую по величине конференцию по робототехнике — IROS. В одной из работ мы моделируем деформируемые объекты, как на видео. В другой предлагаем способ аппроксимации контроллера на основе прогнозирующих моделей (MPC) для гибких роботов.
🔥142🌭1
С текущими темпами не за горами будущее, когда двуногие роботы станут повсеместным явлением. Дальновидные ученые уже разрабатывают стратегии для их совместной работы. Результаты впечатляют!
👍4😱2🌭1🙈1
Разбираем сходства и различия между управлением на основе прогнозирующих моделей (model predictive control, MPC) и обучением с подкреплением (reinforcement learning, RL).

Сходства:

- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).

- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.

Различия:

- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.

- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.

- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.

- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.

- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.
👍3🌭31🏆1
Апдейт по стажировке

Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.

В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.

Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.

Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.

Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.
🔥9🍓21🌭1
Автономный дрифт от Toyota Research Institute

Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.
🌭43
Давно ничего не писал — основной причиной была PhD диссертация, которую хочу поскорее завершить. Начал писать её ещё до стажировки. Выбрал самый ленивый путь: написал введение, background и скомпилировал все статьи, где я первый автор. Последний месяц занимался доработкой введения и background, которые не очень понравились научнику, и писал заключение.

Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.

Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.
👍8🔥2🎉21🍓1
Команда из DeepMind научила робота играть в настольный теннис. Несколько недель назад их работа прогремела в новостях с заголовками "прорыв". На деле, робот смог обыграть всех новичков и около половины игроков среднего уровня.

Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.

Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!
4🫡3
На данный момент обучение с подкреплением в симуляции — основной метод управления шагающими роботами. Однако контроллер, идеально работающий в симуляции, может не справиться на реальном роботе. Этот феномен называется разрывом между симуляцией и реальностью (simulation to real, или sim2real gap). Причины могут быть следующие:

1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.

2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.

3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.

4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.

5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.

6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.

7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.

Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.
5👍5
Вышло новое видео (и статья) от Disney Research про генерацию реалистичных движений робоперсонажей с использованием диффузионных моделей.
💅4🔥1🌭1
На этой неделе побывал на одной из крупнейших конференций по робототехнике — IROS, которая в этом году впервые прошла на Ближнем Востоке, в Абу-Даби. Представлял свои работы: сначала выступил с трёхминутным тизером, а затем в течение двух часов стоял у постера, объясняя детали заинтересованным коллегам. Я всегда критично отношусь к своим результатам, поэтому не ожидал большого ажиотажа. В итоге нашлось около 15 человек, которым моя работа показалась интересной.

К сожалению, организация конференции оставляла желать лучшего. В первые два дня многим не хватило еды, а на банкете — мест за столами, приходилось сидеть где попало. Зона для постеров была тесной, а интернет — крайне ненадёжным, что приводило к постоянным сбоям у онлайн-спикеров.

Тем не менее, я рад, что сьездил; удалось приятно пообщаться с интересными студентами из разных университетов, друзьями и бывшими коллегами.
👍12🔥8💯1
Трансформеры, без сомнения, одни из самых успешных моделей в машинном обучении. За ChatGPT и другими большими языковыми моделями стоит именно трансформер. На IROS, когда я пару раз спрашивал о том, как коллегам удалось добиться впечатляющих результатов, мне отвечали: "Просто накормили трансформеру данные — и вуа-ля, успех!"

Поскольку мне пора начинать искать работу, я решил разобраться в архитектуре трансформера. Вот лучшие ресурсы, которые мне удалось найти:

1️⃣ Визуальное объяснение от 3Blue1Brown — без сложной математики, но с красивыми иллюстрациями.

2️⃣ Известная статья The Illustrated Transformer от Jay Alamar. Даже многие университетские курсы ссылаются на эту статью.

3️⃣ Подробное объяснение с иллюстрациями и математикой от Елены Войты.

4️⃣ Статья от Гарварда The Annotated Transformer для тех, кто хочет реализовать трансформер на PyTorch.

5️⃣ Пояснения в книгах Understanding Deep Learning
и Deep Learning: Foundations and Concepts тоже показались мне доступными и полезными.
👍111🥰1