NEW BOT Телеграм, страница

Robot Learning

Управление на основе прогнозирующих моделей (Model Predictive Control, MPC) — это продвинутая техника управления, использующая модель системы (например, динамику робота) и методы численной оптимизации для выбора действий, направляющих систему к желаемому поведению.

В зависимости от области — будь то теория управления или информатика — тип используемых методов оптимизации может различаться. Специалисты по управлению часто используют оптимизацию на основе градиента, которая требует якобиана и, желательно, гессиана динамики, функции стоимости и ограничений. Напротив, информатики часто применяют оптимизацию на основе выборки или методы нулевого порядка.

Обе группы — и те, кто использует методы на основе градиента, и те, кто использует методы на основе выборки — имеют веские аргументы в пользу своих подходов. Сторонники методов на основе градиента утверждают, что их подход обеспечивает лучшую сходимость и лучшее удовлетворение ограничений. Сторонники методов на основе выборки утверждают, что их метод лучше избегает локальных минимумов и даже находит глобальные оптимумы. Кроме того, оптимизация нулевого порядка проще в реализации, требуя только прямого моделирования и оценки стоимости, включая ограничения. И наконец, она может легко справляться с разрывными динамическими системами, такими как контакты в манипулировании объектами.

В зависимости от конкретной задачи оба метода могут давать отличные результаты. Однако, если ваша модель неточная, то ни один из них вас не спасет.

🔥2🌭2🍓2🍾1

141 views16:37

Robot Learning

На этой неделе появилось несколько впечатляющих видео по гуманоидным роботам. Одна из причин, помимо их доступности, почему исследования в этой области так интенсивны, — схожесть этих роботов с человеком. Благодаря этому можно использовать естественные демонстрации человека и проецировать их на робота. В будущем, возможно, будет использоваться видео из интернета, снятое от первого лица!

Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.

сайт проекта

YouTube

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning

OmniH2O: Universal and Dexterous Human-to-Humanoid
Whole-Body Teleoperation and Learning

Tairan He*, Zhengyi Luo*, Xialin He*, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi

https://omni.human2humanoid.com/

🔥7🐳1🌭1

160 views19:37

Robot Learning

Похожий проект вышел вышел от группы Челси Финн из Стенфорда. По сравнению с работой из предыдущего поста, здесь используют только обучение по демонстрациям с использование трансформерной архитектуры.

сайт проекта

YouTube

HumanPlus: Autonomous Skills from Imitating Humans

Stanford HumanPlus Robot: Humanoid Shadowing and Imitation from Humans
Project website: https://humanoid-ai.github.io
Team at Stanford University: Zipeng Fu*, Qingqing Zhao*, Qi Wu*, Gordon Wetzstein, Chelsea Finn

Abstract: One of the key arguments for…

🍓4🌭3❤1🤓1👻1

153 views21:02

Robot Learning

Наверняка многие из вас видели крутые видео с Атласом, где он выполняет сальто, прыгает по коробкам и т.д. За всеми этими результатами стоит управление на основе прогнозирующих моделей. На практике эти контроллеры часто могут быть слишком медленными для работы в реальном времени. Однако, существует множество способов их ускорить, и вот несколько из них:

1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.

2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).

3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.

4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.

5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.

🍓4🌭2👍1🔥1

147 views13:11

Robot Learning

Четырёхногие роботы эволюционируют🦾

YouTube

A Cyber "Monkey" Dog?!

❤2🌭2🍓1🎃1

154 views20:30

Robot Learning

Существует похожая работа из академии, где подробно объясняют, как им удалось натренировать такой контроллер.

YouTube

Learning Bipedal Walking on a Quadruped Robot via Adversarial Motion Priors

🍓3🔥2🌭1

162 views20:34

Robot Learning

This media is not supported in your browser

VIEW IN TELEGRAM

Друзья, рад поделиться, что две мои работы были приняты на вторую по величине конференцию по робототехнике — IROS. В одной из работ мы моделируем деформируемые объекты, как на видео. В другой предлагаем способ аппроксимации контроллера на основе прогнозирующих моделей (MPC) для гибких роботов.

🔥14❤2🌭1

167 views19:14

Robot Learning

С текущими темпами не за горами будущее, когда двуногие роботы станут повсеместным явлением. Дальновидные ученые уже разрабатывают стратегии для их совместной работы. Результаты впечатляют!

YouTube

Learning Decentralized Multi-Biped Control for Payload Transport

Project page: https://decmbc.github.io/
Paper: https://arxiv.org/abs/2406.17279

Abstract - Payload transport over flat terrain via multi-wheel robot carriers is well-understood, highly effective, and configurable. In this paper, our goal is to provide similar…

👍4😱2🌭1🙈1

160 views10:17

Robot Learning

Разбираем сходства и различия между управлением на основе прогнозирующих моделей (model predictive control, MPC) и обучением с подкреплением (reinforcement learning, RL).

Сходства:

- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).

- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.

Различия:

- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.

- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.

- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.

- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.

- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.

👍3🌭3❤1🏆1

177 views19:48

Robot Learning

Апдейт по стажировке

Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.

В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.

Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.

Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.

Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.

🔥9🍓2❤1🌭1

185 views18:55

Robot Learning

Автономный дрифт от Toyota Research Institute

Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.

YouTube

TRI / Stanford Engineering Autonomous Tandem Drift

Stanford Engineering and Toyota Research Institute Achieve World’s First Autonomous Tandem Drift. Leveraging the latest AI technology, Stanford Engineering and Toyota Research Institute are working to make driving safer for all. By automating a driving style…

🌭4❤3

193 views20:04

Robot Learning

Давно ничего не писал — основной причиной была PhD диссертация, которую хочу поскорее завершить. Начал писать её ещё до стажировки. Выбрал самый ленивый путь: написал введение, background и скомпилировал все статьи, где я первый автор. Последний месяц занимался доработкой введения и background, которые не очень понравились научнику, и писал заключение.

Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.

Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.

👍8🔥2🎉2❤1🍓1

194 views19:57

Robot Learning

https://youtu.be/wGE1RrTtoXM

YouTube

Shy Little Robot Doggy | Auto-dodge perception

#ai #automation #robotics #robotdog #robot #technology #learning

👻4

159 views19:48

Robot Learning

Команда из DeepMind научила робота играть в настольный теннис. Несколько недель назад их работа прогремела в новостях с заголовками "прорыв". На деле, робот смог обыграть всех новичков и около половины игроков среднего уровня.

Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.

Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!

YouTube

Demonstrations - Achieving human level competitive robot table tennis

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

❤4🫡3

193 views20:04

Robot Learning

На данный момент обучение с подкреплением в симуляции — основной метод управления шагающими роботами. Однако контроллер, идеально работающий в симуляции, может не справиться на реальном роботе. Этот феномен называется разрывом между симуляцией и реальностью (simulation to real, или sim2real gap). Причины могут быть следующие:

1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.

2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.

3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.

4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.

5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.

6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.

7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.

Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.

❤5👍5

177 views19:48

Robot Learning

Вышло новое видео (и статья) от Disney Research про генерацию реалистичных движений робоперсонажей с использованием диффузионных моделей.

YouTube

Robot Motion Diffusion Model: Motion Generation for Robotic Characters

Recent advancements in generative motion models have achieved remarkable results, enabling the synthesis of lifelike human motions from textual denoscriptions. These kinematic approaches, while visually appealing, often produce motions that fail to adhere…

💅4🔥1🌭1

254 views20:26

Robot Learning

Грустное будущее

YouTube

The New Robody - Impressions from our Pilot in Munich

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

🌭3

206 views20:30

Robot Learning

На этой неделе побывал на одной из крупнейших конференций по робототехнике — IROS, которая в этом году впервые прошла на Ближнем Востоке, в Абу-Даби. Представлял свои работы: сначала выступил с трёхминутным тизером, а затем в течение двух часов стоял у постера, объясняя детали заинтересованным коллегам. Я всегда критично отношусь к своим результатам, поэтому не ожидал большого ажиотажа. В итоге нашлось около 15 человек, которым моя работа показалась интересной.

К сожалению, организация конференции оставляла желать лучшего. В первые два дня многим не хватило еды, а на банкете — мест за столами, приходилось сидеть где попало. Зона для постеров была тесной, а интернет — крайне ненадёжным, что приводило к постоянным сбоям у онлайн-спикеров.

Тем не менее, я рад, что сьездил; удалось приятно пообщаться с интересными студентами из разных университетов, друзьями и бывшими коллегами.

👍12🔥8💯1

174 views20:55

Robot Learning

Трансформеры, без сомнения, одни из самых успешных моделей в машинном обучении. За ChatGPT и другими большими языковыми моделями стоит именно трансформер. На IROS, когда я пару раз спрашивал о том, как коллегам удалось добиться впечатляющих результатов, мне отвечали: "Просто накормили трансформеру данные — и вуа-ля, успех!"

Поскольку мне пора начинать искать работу, я решил разобраться в архитектуре трансформера. Вот лучшие ресурсы, которые мне удалось найти:

1️⃣ Визуальное объяснение от 3Blue1Brown — без сложной математики, но с красивыми иллюстрациями.

2️⃣ Известная статья The Illustrated Transformer от Jay Alamar. Даже многие университетские курсы ссылаются на эту статью.

3️⃣ Подробное объяснение с иллюстрациями и математикой от Елены Войты.

4️⃣ Статья от Гарварда The Annotated Transformer для тех, кто хочет реализовать трансформер на PyTorch.

5️⃣ Пояснения в книгах Understanding Deep Learning
и Deep Learning: Foundations and Concepts тоже показались мне доступными и полезными.

👍11❤1🥰1

202 views20:51

Robot Learning

Forwarded from DeepSchool

🎞

Гессиан. Видео

Методы второго порядка используют вторые производные функции потерь. Важный элемент этих методов — гессиан. Он и является второй производной по параметрам модели.

Главная проблема гессиана — его долго считать. Учёные придумали различные методы для его аппроксимации, чтобы экономить вычисления. А недавно появились и алгоритмы оптимизации, которые используют эти аппроксимации.

О методах второго порядка мы и записали наше новое видео!

В нём Шамиль Мамедов, исследователь из Amazon Robotics, напоминает теорию численной оптимизации и рассказывает про методы приближения гессиана. А также проходится по Sophia — свежему оптимизатору, который использует методы второго порядка.

Смотрите новое видео на Youtube!

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Гессиан, или методы второго порядка в численной оптимизации

В DeepSchool мы повышаем квалификацию DL-инженеров: https://deepschool.ru/?utm_source=yt&utm_content=hessian
Наш курс "Ракета в Computer Vision": https://deepschool.ru/cvrocket?utm_source=yt&utm_content=hessian

Методы второго порядка используют вторые производные…

🔥11👍4❤2

221 views12:04

Robot Learning

Forwarded from DeepSchool

Почему RL — это сложно? И как Decision Transformer меняет правила игры

Обучение с подкреплением (RL) часто звучит как магия: агент учится решать задачи через взаимодействие с окружающей средой. Тыкнул сюда, получил минус балл, постараюсь больше так не делать. Тыкнул сюда, получил плюс балл — о, повторю!

Но в реальности всё сложнее. Представьте робота, которому нужно научиться управлять автомобилем. Для обучения требуется симулятор, который моделирует дорожные условия. Создать его — задача не из лёгких: это дорого, долго, а иногда просто невозможно. Более того, ошибки агента в симуляторе могут не просто «остаться в игре», но привести к серьёзным последствиям, если перенести их в реальный мир.

Допустим, вы хотите обучить робота доставлять посылки. Если он учится в реальном мире, то каждое «неудачное» действие — это разбитый аппарат. А симуляторы часто слишком далеки от реальности, и агент начинает пользоваться их несовершенствами, что делает результаты обучения неприменимыми.

Альтернативный способ для создания умных агентов: агент учится воспроизводить траектории, созданные человеком. Проблема в том, что он может лишь копировать, но не создавать новые стратегии для достижения лучших результатов. RL, наоборот, строит стратегии сам, но упирается в проблему сложности и дороговизны.

Decision Transformer (DT) как раз призван решить эту проблему, генерируя на основе имеющихся данных новые стратегии. Он использует идеи RL и переформулирует проблему RL как задачу генерации последовательности.

Проще говоря, вместо «учимся через ошибки», DT говорит: «Вот данные о прошлом опыте, вот цель в виде суммы будущих наград — давайте сгенерируем траекторию, которая достигнет цель».

И это совершенно новый способ решения задач по управлению роботами. Подробнее о нём мы рассказали в новой статье: https://deepschool-pro.notion.site/Decision-Transformer-92feae6bd93d42da997cd44653f92a74?pvs=4

deepschool-pro on Notion

Decision Transformer: модель для управления роботами | Notion

Автор: Шамиль Мамедов

❤8🔥4

248 views08:10

About

Blog

Apps

Platform