Robot Learning – Telegram
Robot Learning
81 subscribers
2 photos
36 links
О робототехнике и AI в робототехнике
Download Telegram
Вдохновившись успехами больших моделей в компьютерном зрении и обработке языка, робототехники пытаются повторить их успех. Но насколько это реалистично? Может ли масштабирование данных и тренировка больших моделей решить проблемы робототехники? Давайте разберем аргументы за и против.

Аргументы за

1. Успехи в других областях: Это сработало в компьютерном зрении и обработке языка, почему же не должно сработать в робототехнике? Некоторые недавние работы поддерживают этот аргумент, например, RT-2 и RT-X от Google, или Diffusion Policy.
2. Сложные задачи на простом многообразии: Многие задачи робототехники лежат на достаточно простом многообразии. Тренируя большие модели, мы можем найти это многообразие. Проще говоря, этот аргумент утверждает, что кажущиеся на первый взгляд разнообразные задачи на самом деле очень похожи в некотором низкоразмерном пространстве.
3. "Здравый смысл" у роботов: Большие модели могут дать роботам "здравый смысл", позволяя им понимать общие принципы того, как работает мир.

Аргументы против

1. Недостаток данных: На данный момент у нас нет большого количества робототехнических данных и нет ясного понимания, как их собирать. Несмотря на недавние инициативы по сбору данных, их всё ещё очень мало по сравнению с датасетами в компьютерном зрении и языковых моделях.
2. Различные воплощения роботов: У роботов разные воплощения. Сигналы управления для роборуки и ходячего робота абсолютно разные. Нам нужно либо найти какое-то абстрактное пространство с общими сигналами управления, либо собирать данные для всех возможных типов роботов.
3. Многообразие сред: Количество сред и условий, в которых мы хотим использовать роботов, бесконечно. Мы хотим, чтобы роботы могли работать в обычных домах с любой планировкой, на заводах, на улице, в любую погоду. Сбор данных для каждой из этих сред потребует огромных усилий.
4. Высокие затраты на обучение: Тренировка моделей может быть слишком дорогой или энергозатратной. Говорят, что тренировка GPT-4V стоила более 100 млн долларов; в робототехнике нам могут понадобиться ещё более мощные модели.
5. Текущие ограничения в точности: Многие методы обучения не могут быть сейчас использованы, потому что доля их успешных попыток не превышает 80%, а для продакшн-решений нужна точность 99.Х %. Даже текущие модели в компьютерном зрении и обработке языка не могут обеспечить такую точность.
6. Неудачный пример автономного транспорта: Автономный транспорт попробовал обучение, но всё ещё не решил все свои проблемы.
7. Долгосрочное планирование: Многие задачи в робототехнике требуют долгосрочного планирования, например, заваривание чая. Маленькие ошибки могут накапливаться и приводить к нежелаемым результатам.

Как сторонники, так и противники утверждают, что мы должны попробовать масштабирование. Даже если это не решит проблемы робототехники, мы многому научимся. Однако все соглашаются, что в краткосрочной и среднесрочной перспективе лучший подход — это комбинация методов обучения и классической робототехники.

Вы что думаете по поводу масшатибирования обучения в робототехнике?
🍌7🔥2
Друзья, хочу поделиться важной новостью в моей карьере. Сегодня я начал стажировку в роли Applied Scientist в Amazon Robotics в Берлине. В течение следующих шести месяцев буду работать над обучением роботов для решения задач в e-commerce.

В конце прошлого года я подавался во множество компаний, и в итоге со мной связались только Amazon и Mitsubishi Electric Research. Лишь Amazon прислал оффер. Процесс отбора включал решение двух несложных задач на программирование за 50 минут и очное собеседование с членом команды.

Через несколько месяцев поделюсь опытом работы в Amazon и успехами в обучении роботов.
🔥13🍌43
Разрабатывать функции вознаграждения сложно! Существует целое направление, занимающееся разработкой алгоритмов для обучения функций вознаграждения на основе данных: обратное обучение с подкреплением или обратное оптимальное управление.

Рассмотрим простой случай. Пусть мы хотим обучить робота класть книгу со стола на книжную полку. Если мы покажем роботу несколько положительных примеров, когда книга на полке, и несколько негативных примеров, когда книга где угодно, но не на полке, то можем натренировать бинарный классификатор. Этот классификатор, на основе текущего состояния среды (изображения с камеры и состояния самого робота), будет возвращать вознаграждение 1, если робот справился с задачей, и 0, если нет. Первый минус у этого подхода: вознаграждение разреженное, из-за чего дальнейшее обучение робота на основе такой функции вознаграждений будет очень долгим. Второй минус: робот может эксплуатировать классификатор.

Другой подход — использование предпочтений человека, где классификатором по сути является человек. Это работает так: показываем оператору несколько примеров и просим выбрать лучший. Используем предпочтения человека, чтобы обучить функцию вознаграждения. Кстати, именно этот метод использовали для fine-tuning ChatGPT.

Существуют также методы обучения функции вознаграждений на основе модели. Одна из моих коллег использует этот подход для имитации разных стилей вождения. Точное знание модели является большим допущением, но при этом ей удалось получить хорошие результаты.

Каждый из этих подходов имеет свои плюсы и минусы. Обучение функций вознаграждений — сложная задача, и разные методы могут быть более или менее эффективны в зависимости от конкретного применения.
🍌51👍1
Помимо университетских лабораторий, несколько стартапов активно работают над решением задачи воплощенного интеллекта (embodied intelligence). Один из таких стартапов — 1x Technologies, недавно привлекший 100 млн долларов инвестиций.

Что делает их уникальными? Всё дело в железе и софте! Они разработали собственные мощные двигатели с высоким соотношением выходного момента к весу (обычно двигатели с такими параметрами очень громоздкие). А их эффективные трансмиссии, основанные на кабелях, выводят производительность на новый уровень.

В области софта они придерживаются end-to-end подхода: роботы обучаются исключительно на основе собранных данных. Поэтому они придают огромное значение качеству этих данных, которые собираются с помощью телеуправления и очков виртуальной реальности.

Хотите увидеть их роботов в действии? Посмотрите прикрепленное видео. Да, человек мог бы выполнить задачу быстрее, но достижения 1x Technologies всё равно
🔥4🍌21
Существует множество соревнований по классическому и глубокому машинному обучению. Например, на платформе Kaggle сейчас активно около 10 соревнований, где победители получают денежные призы. Помимо призов, участие в таких соревнованиях приносит престиж и признание в сообществе.

К сожалению, соревнования по управлению и обучению с подкреплением не столь распространены. Однако в последние годы на крупных робототехнических конференциях начали появляться подобные мероприятия. В прошлом году на ICRA, где мне посчастливилось побывать, проводились соревнования по сборке деталей, планированию траекторий, SLAM и складыванию повседневных вещей. Вопреки ожиданиям, в этих соревнованиях часто побеждают классические методы.

В этом году на другой крупной конференции, IROS, будет проходить соревнование по робототехнической акробатике. Цель — создать контроллер для swing-up двух underactuated платформ: акробота и пендубота. Обе платформы достаточно простые: 2 степени свободы и только один мотор. Организаторы предоставляют симулятор, в котором можно спроектировать и отладить свой контроллер. Команды, показавшие лучшие результаты в симуляции, получат доступ к реальному оборудованию и смогут протестировать свои контроллеры на железе.

Считаю, что это отличная возможность спроектировать свой любимый контроллер и сравнить его с лучшими решениями других участников. В комментариях пример swing-up акробота.
4👍3🍌3
Управление на основе прогнозирующих моделей (Model Predictive Control, MPC) — это продвинутая техника управления, использующая модель системы (например, динамику робота) и методы численной оптимизации для выбора действий, направляющих систему к желаемому поведению.

В зависимости от области — будь то теория управления или информатика — тип используемых методов оптимизации может различаться. Специалисты по управлению часто используют оптимизацию на основе градиента, которая требует якобиана и, желательно, гессиана динамики, функции стоимости и ограничений. Напротив, информатики часто применяют оптимизацию на основе выборки или методы нулевого порядка.

Обе группы — и те, кто использует методы на основе градиента, и те, кто использует методы на основе выборки — имеют веские аргументы в пользу своих подходов. Сторонники методов на основе градиента утверждают, что их подход обеспечивает лучшую сходимость и лучшее удовлетворение ограничений. Сторонники методов на основе выборки утверждают, что их метод лучше избегает локальных минимумов и даже находит глобальные оптимумы. Кроме того, оптимизация нулевого порядка проще в реализации, требуя только прямого моделирования и оценки стоимости, включая ограничения. И наконец, она может легко справляться с разрывными динамическими системами, такими как контакты в манипулировании объектами.

В зависимости от конкретной задачи оба метода могут давать отличные результаты. Однако, если ваша модель неточная, то ни один из них вас не спасет.
🔥2🌭2🍓2🍾1
На этой неделе появилось несколько впечатляющих видео по гуманоидным роботам. Одна из причин, помимо их доступности, почему исследования в этой области так интенсивны, — схожесть этих роботов с человеком. Благодаря этому можно использовать естественные демонстрации человека и проецировать их на робота. В будущем, возможно, будет использоваться видео из интернета, снятое от первого лица!

Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.

сайт проекта
🔥7🐳1🌭1
Похожий проект вышел вышел от группы Челси Финн из Стенфорда. По сравнению с работой из предыдущего поста, здесь используют только обучение по демонстрациям с использование трансформерной архитектуры.

сайт проекта
🍓4🌭31🤓1👻1
Наверняка многие из вас видели крутые видео с Атласом, где он выполняет сальто, прыгает по коробкам и т.д. За всеми этими результатами стоит управление на основе прогнозирующих моделей. На практике эти контроллеры часто могут быть слишком медленными для работы в реальном времени. Однако, существует множество способов их ускорить, и вот несколько из них:

1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.

2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).

3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.

4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.

5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.
🍓4🌭2👍1🔥1
Существует похожая работа из академии, где подробно объясняют, как им удалось натренировать такой контроллер.
🍓3🔥2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, рад поделиться, что две мои работы были приняты на вторую по величине конференцию по робототехнике — IROS. В одной из работ мы моделируем деформируемые объекты, как на видео. В другой предлагаем способ аппроксимации контроллера на основе прогнозирующих моделей (MPC) для гибких роботов.
🔥142🌭1
С текущими темпами не за горами будущее, когда двуногие роботы станут повсеместным явлением. Дальновидные ученые уже разрабатывают стратегии для их совместной работы. Результаты впечатляют!
👍4😱2🌭1🙈1
Разбираем сходства и различия между управлением на основе прогнозирующих моделей (model predictive control, MPC) и обучением с подкреплением (reinforcement learning, RL).

Сходства:

- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).

- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.

Различия:

- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.

- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.

- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.

- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.

- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.
👍3🌭31🏆1
Апдейт по стажировке

Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.

В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.

Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.

Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.

Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.
🔥9🍓21🌭1
Автономный дрифт от Toyota Research Institute

Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.
🌭43
Давно ничего не писал — основной причиной была PhD диссертация, которую хочу поскорее завершить. Начал писать её ещё до стажировки. Выбрал самый ленивый путь: написал введение, background и скомпилировал все статьи, где я первый автор. Последний месяц занимался доработкой введения и background, которые не очень понравились научнику, и писал заключение.

Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.

Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.
👍8🔥2🎉21🍓1
Команда из DeepMind научила робота играть в настольный теннис. Несколько недель назад их работа прогремела в новостях с заголовками "прорыв". На деле, робот смог обыграть всех новичков и около половины игроков среднего уровня.

Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.

Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!
4🫡3
На данный момент обучение с подкреплением в симуляции — основной метод управления шагающими роботами. Однако контроллер, идеально работающий в симуляции, может не справиться на реальном роботе. Этот феномен называется разрывом между симуляцией и реальностью (simulation to real, или sim2real gap). Причины могут быть следующие:

1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.

2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.

3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.

4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.

5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.

6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.

7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.

Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.
5👍5