На этой неделе появилось несколько впечатляющих видео по гуманоидным роботам. Одна из причин, помимо их доступности, почему исследования в этой области так интенсивны, — схожесть этих роботов с человеком. Благодаря этому можно использовать естественные демонстрации человека и проецировать их на робота. В будущем, возможно, будет использоваться видео из интернета, снятое от первого лица!
Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.
сайт проекта
Сегодня предлагаю полюбоваться достижениями ученых из Carnegie Mellon University. Они применяют все современные решения в области обучения с подкреплением, обучения по демонстрациям и оценке положения тела человека, чтобы добиться таких впечатляющих результатов.
сайт проекта
YouTube
OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning
OmniH2O: Universal and Dexterous Human-to-Humanoid
Whole-Body Teleoperation and Learning
Tairan He*, Zhengyi Luo*, Xialin He*, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi
https://omni.human2humanoid.com/
Whole-Body Teleoperation and Learning
Tairan He*, Zhengyi Luo*, Xialin He*, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi
https://omni.human2humanoid.com/
🔥7🐳1🌭1
Похожий проект вышел вышел от группы Челси Финн из Стенфорда. По сравнению с работой из предыдущего поста, здесь используют только обучение по демонстрациям с использование трансформерной архитектуры.
сайт проекта
сайт проекта
YouTube
HumanPlus: Autonomous Skills from Imitating Humans
Stanford HumanPlus Robot: Humanoid Shadowing and Imitation from Humans
Project website: https://humanoid-ai.github.io
Team at Stanford University: Zipeng Fu*, Qingqing Zhao*, Qi Wu*, Gordon Wetzstein, Chelsea Finn
Abstract: One of the key arguments for…
Project website: https://humanoid-ai.github.io
Team at Stanford University: Zipeng Fu*, Qingqing Zhao*, Qi Wu*, Gordon Wetzstein, Chelsea Finn
Abstract: One of the key arguments for…
🍓4🌭3❤1🤓1👻1
Наверняка многие из вас видели крутые видео с Атласом, где он выполняет сальто, прыгает по коробкам и т.д. За всеми этими результатами стоит управление на основе прогнозирующих моделей. На практике эти контроллеры часто могут быть слишком медленными для работы в реальном времени. Однако, существует множество способов их ускорить, и вот несколько из них:
1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.
2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).
3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.
4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.
5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.
1️⃣ Используйте интегратор с постоянным шагом вместо переменного. Часто хорошо работает интегратор Рунге-Кутты 4-го порядка. Также можно попробовать явный метод Эйлера, иногда его точности достаточно.
2️⃣ Для транскрипции (перехода от математической формулировки к нелинейной программе) используйте метод множественной стрельбы (параллельный интегратор) вместо одиночной стрельбы (последовательный интегратор).
3️⃣ Упорядочивайте переменные решения грамотно, чтобы создать разреженные якобиан и гессиан.
4️⃣ Для разреженных задач используйте соответствующий численный оптимизатор и решатель линейной алгебры, которые учитывают разреженность.
5️⃣ Используйте приближенный гессиан вместо точного. Часто хорошо работает приближение Гаусса-Ньютона.
🍓4🌭2👍1🔥1
YouTube
A Cyber "Monkey" Dog?!
❤2🌭2🍓1🎃1
Существует похожая работа из академии, где подробно объясняют, как им удалось натренировать такой контроллер.
YouTube
Learning Bipedal Walking on a Quadruped Robot via Adversarial Motion Priors
🍓3🔥2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, рад поделиться, что две мои работы были приняты на вторую по величине конференцию по робототехнике — IROS. В одной из работ мы моделируем деформируемые объекты, как на видео. В другой предлагаем способ аппроксимации контроллера на основе прогнозирующих моделей (MPC) для гибких роботов.
🔥14❤2🌭1
С текущими темпами не за горами будущее, когда двуногие роботы станут повсеместным явлением. Дальновидные ученые уже разрабатывают стратегии для их совместной работы. Результаты впечатляют!
YouTube
Learning Decentralized Multi-Biped Control for Payload Transport
Project page: https://decmbc.github.io/
Paper: https://arxiv.org/abs/2406.17279
Abstract - Payload transport over flat terrain via multi-wheel robot carriers is well-understood, highly effective, and configurable. In this paper, our goal is to provide similar…
Paper: https://arxiv.org/abs/2406.17279
Abstract - Payload transport over flat terrain via multi-wheel robot carriers is well-understood, highly effective, and configurable. In this paper, our goal is to provide similar…
👍4😱2🌭1🙈1
Разбираем сходства и различия между управлением на основе прогнозирующих моделей (model predictive control, MPC) и обучением с подкреплением (reinforcement learning, RL).
Сходства:
- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).
- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.
Различия:
- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.
- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.
- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.
- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.
- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.
Сходства:
- Оба метода решают задачи последовательного принятия решений (приближенно решают задачи динамического программирования).
- Оба разрабатывают стратегии на основе желаемого результата, таких как вознаграждения в RL или целевая функция и ограничения в MPC.
Различия:
- Модель / Данные: MPC сначала идентифицирует модель системы, а затем использует фиксированную модель во время (онлайн) выполнения. RL обучает контроллер непосредственно на данных через пробу и ошибку, балансируя исследование и эксплуатацию.
- Вознаграждения: MPC требует гладкие и непрерывные целевые функции. RL может работать с произвольными вознаграждениями, как с непрерывными, так и с 0-1/разреженными.
- Ограничения: MPC явно накладывает ограничения. RL накладывает ограничения через штрафы, аугментируя функцию вознаграждения.
- Инференс: MPC решает задачу оптимизации онлайн, что может быть вычислительно затратным. RL просто оценивает параметризованный контроллер, что делает онлайн-выполнение очень быстрым.
- Прошлый опыт: MPC часто используется вместе с оценщиком состояния для управления неопределенностями. RL включает историю измерений, улучшая принятие решений на основе прошлого опыта.
👍3🌭3❤1🏆1
Апдейт по стажировке
Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.
В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.
Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.
Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.
Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.
Уже прошло почти два месяца с начала моей стажировки, и я хочу рассказать вам, чем я все это время занимался и как устроена стажировка в робототехнике.
В робототехнике стажировки прикладных ученых длятся как минимум 6 месяцев, так как стажеры работают с оборудованием, а эксперименты требуют много времени. В течение первого месяца нужно пройти онбординг, познакомиться с лидерскими принципами Amazon и корпоративной культурой. Помимо онбординга, необходимо изучить продукт команды и общаться с другими учеными, чтобы найти актуальную проблему, над которой будешь работать в оставшиеся 5 месяцев. В конце первого месяца нужно презентовать проект всей команде и собрать общий фидбэк.
Лично я, абстрактно говоря, буду работать над проблемой вытаскивания книг из полок роботом. Представьте робота-библиотекаря, который должен найти нужную вам книгу, вытащить ее из полки, заполненной другими книгами, и принести вам.
Во время второго месяца нужно реализовать сильное базовое решение. В моем случае это методы управления по силе из классической робототехники. Успешно реализованное базовое решение можно считать первым майлстоуном. Я пока в процессе реализации базового решения, и что-то начинает получаться.
Остальные 3-4 месяца нужно работать над основным решением. Моим основным решением является обучение в симуляции с дальнейшим переносом политики на реальное оборудование. У этого подхода есть определенные риски, например, симулятор может оказаться далеким от реальности или политика может плохо переноситься на оборудование. Оправдались ли эти риски или нет, расскажу вам потом.
🔥9🍓2❤1🌭1
Автономный дрифт от Toyota Research Institute
Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.
Очень крутое видео про тандемный дрифт. Видно, что они долго готовились к этому демо. Во время дрифта машины реагируют друг на друга в режиме реального времени, используя нейросеть в качестве модели.
YouTube
TRI / Stanford Engineering Autonomous Tandem Drift
Stanford Engineering and Toyota Research Institute Achieve World’s First Autonomous Tandem Drift. Leveraging the latest AI technology, Stanford Engineering and Toyota Research Institute are working to make driving safer for all. By automating a driving style…
🌭4❤3
Давно ничего не писал — основной причиной была PhD диссертация, которую хочу поскорее завершить. Начал писать её ещё до стажировки. Выбрал самый ленивый путь: написал введение, background и скомпилировал все статьи, где я первый автор. Последний месяц занимался доработкой введения и background, которые не очень понравились научнику, и писал заключение.
Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.
Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.
Так как диссертация почти готова, решил не откладывать защиту и назначил её на 12 декабря. В Бельгии защита проходит в два этапа: private и public. На private защите присутствуют только ты и профессора — у меня их пять, включая научника. Ты делаешь 20-минутную презентацию, после чего они задают вопросы в течение двух часов. Если все остались довольны, через минимум три недели можно организовать public защиту. На неё можно пригласить семью, друзей и коллег. Презентация должна быть максимально доступной, чтобы даже случайный прохожий понял, какой вклад ты внёс в науку.
Теперь, когда вечера будут свободнее, нужно задуматься о следующем шаге и, наверное, начать готовиться к интервью.
👍8🔥2🎉2❤1🍓1
Команда из DeepMind научила робота играть в настольный теннис. Несколько недель назад их работа прогремела в новостях с заголовками "прорыв". На деле, робот смог обыграть всех новичков и около половины игроков среднего уровня.
Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.
Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!
Начал читать статью, и вот первые впечатления: они используют множество эвристик и работали с тренером по теннису. Вместо одного агента реализована иерархическая структура: на верхнем уровне принимается решение, какой из низкоуровневых контроллеров использовать. Обучение проводилось в симуляции (Mujoco) с применением domain randomization и идентификации параметров симулятора.
Если дочитаю статью до конца, расскажу больше про архитектуру и подходы!
YouTube
Demonstrations - Achieving human level competitive robot table tennis
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤4🫡3
На данный момент обучение с подкреплением в симуляции — основной метод управления шагающими роботами. Однако контроллер, идеально работающий в симуляции, может не справиться на реальном роботе. Этот феномен называется разрывом между симуляцией и реальностью (simulation to real, или sim2real gap). Причины могут быть следующие:
1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.
2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.
3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.
4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.
5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.
6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.
7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.
Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.
1️⃣Неучтённая динамика: Например, влияние ветра на дрон или упругость в шарнирах манипуляторов.
2️⃣Некорректные параметры симуляции: Параметры контакта, трения и настройки низкоуровневого контроллера могут быть заданы неверно.
3️⃣Неточные модели контакта: Симуляторы часто упрощают сложную динамику взаимодействия при контакте.
4️⃣Задержки: В реальном мире неизбежны задержки при передаче и обработке данных от датчиков.
5️⃣Динамика приводов: Приводы могут демонстрировать нелинейное поведение, которое часто не учитывается.
6️⃣Численная точность: Мы стремимся к быстрым симуляциям с крупными шагами для ускоренного обучения, но выбор правильного интегратора имеет большое значение.
7️⃣Восприятие: Отрисовка и текстуры в симуляциях редко точно соответствуют реальной обстановке.
Эти факторы могут существенно повлиять на переносимость обученных контроллеров из симуляции в реальный мир. В следующие раз расскажу, как можно сократить этот разрыв.
❤5👍5
Вышло новое видео (и статья) от Disney Research про генерацию реалистичных движений робоперсонажей с использованием диффузионных моделей.
YouTube
Robot Motion Diffusion Model: Motion Generation for Robotic Characters
Recent advancements in generative motion models have achieved remarkable results, enabling the synthesis of lifelike human motions from textual denoscriptions. These kinematic approaches, while visually appealing, often produce motions that fail to adhere…
💅4🔥1🌭1
На этой неделе побывал на одной из крупнейших конференций по робототехнике — IROS, которая в этом году впервые прошла на Ближнем Востоке, в Абу-Даби. Представлял свои работы: сначала выступил с трёхминутным тизером, а затем в течение двух часов стоял у постера, объясняя детали заинтересованным коллегам. Я всегда критично отношусь к своим результатам, поэтому не ожидал большого ажиотажа. В итоге нашлось около 15 человек, которым моя работа показалась интересной.
К сожалению, организация конференции оставляла желать лучшего. В первые два дня многим не хватило еды, а на банкете — мест за столами, приходилось сидеть где попало. Зона для постеров была тесной, а интернет — крайне ненадёжным, что приводило к постоянным сбоям у онлайн-спикеров.
Тем не менее, я рад, что сьездил; удалось приятно пообщаться с интересными студентами из разных университетов, друзьями и бывшими коллегами.
К сожалению, организация конференции оставляла желать лучшего. В первые два дня многим не хватило еды, а на банкете — мест за столами, приходилось сидеть где попало. Зона для постеров была тесной, а интернет — крайне ненадёжным, что приводило к постоянным сбоям у онлайн-спикеров.
Тем не менее, я рад, что сьездил; удалось приятно пообщаться с интересными студентами из разных университетов, друзьями и бывшими коллегами.
👍12🔥8💯1
Трансформеры, без сомнения, одни из самых успешных моделей в машинном обучении. За ChatGPT и другими большими языковыми моделями стоит именно трансформер. На IROS, когда я пару раз спрашивал о том, как коллегам удалось добиться впечатляющих результатов, мне отвечали: "Просто накормили трансформеру данные — и вуа-ля, успех!"
Поскольку мне пора начинать искать работу, я решил разобраться в архитектуре трансформера. Вот лучшие ресурсы, которые мне удалось найти:
1️⃣ Визуальное объяснение от 3Blue1Brown — без сложной математики, но с красивыми иллюстрациями.
2️⃣ Известная статья The Illustrated Transformer от Jay Alamar. Даже многие университетские курсы ссылаются на эту статью.
3️⃣ Подробное объяснение с иллюстрациями и математикой от Елены Войты.
4️⃣ Статья от Гарварда The Annotated Transformer для тех, кто хочет реализовать трансформер на PyTorch.
5️⃣ Пояснения в книгах Understanding Deep Learning
и Deep Learning: Foundations and Concepts тоже показались мне доступными и полезными.
Поскольку мне пора начинать искать работу, я решил разобраться в архитектуре трансформера. Вот лучшие ресурсы, которые мне удалось найти:
1️⃣ Визуальное объяснение от 3Blue1Brown — без сложной математики, но с красивыми иллюстрациями.
2️⃣ Известная статья The Illustrated Transformer от Jay Alamar. Даже многие университетские курсы ссылаются на эту статью.
3️⃣ Подробное объяснение с иллюстрациями и математикой от Елены Войты.
4️⃣ Статья от Гарварда The Annotated Transformer для тех, кто хочет реализовать трансформер на PyTorch.
5️⃣ Пояснения в книгах Understanding Deep Learning
и Deep Learning: Foundations and Concepts тоже показались мне доступными и полезными.
👍11❤1🥰1
Forwarded from DeepSchool
Методы второго порядка используют вторые производные функции потерь. Важный элемент этих методов — гессиан. Он и является второй производной по параметрам модели.
Главная проблема гессиана — его долго считать. Учёные придумали различные методы для его аппроксимации, чтобы экономить вычисления. А недавно появились и алгоритмы оптимизации, которые используют эти аппроксимации.
О методах второго порядка мы и записали наше новое видео!
В нём Шамиль Мамедов, исследователь из Amazon Robotics, напоминает теорию численной оптимизации и рассказывает про методы приближения гессиана. А также проходится по Sophia — свежему оптимизатору, который использует методы второго порядка.
Смотрите новое видео на Youtube!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Гессиан, или методы второго порядка в численной оптимизации
В DeepSchool мы повышаем квалификацию DL-инженеров: https://deepschool.ru/?utm_source=yt&utm_content=hessian
Наш курс "Ракета в Computer Vision": https://deepschool.ru/cvrocket?utm_source=yt&utm_content=hessian
Методы второго порядка используют вторые производные…
Наш курс "Ракета в Computer Vision": https://deepschool.ru/cvrocket?utm_source=yt&utm_content=hessian
Методы второго порядка используют вторые производные…
🔥11👍4❤2
Forwarded from DeepSchool
Почему RL — это сложно? И как Decision Transformer меняет правила игры
Обучение с подкреплением (RL) часто звучит как магия: агент учится решать задачи через взаимодействие с окружающей средой. Тыкнул сюда, получил минус балл, постараюсь больше так не делать. Тыкнул сюда, получил плюс балл — о, повторю!
Но в реальности всё сложнее. Представьте робота, которому нужно научиться управлять автомобилем. Для обучения требуется симулятор, который моделирует дорожные условия. Создать его — задача не из лёгких: это дорого, долго, а иногда просто невозможно. Более того, ошибки агента в симуляторе могут не просто «остаться в игре», но привести к серьёзным последствиям, если перенести их в реальный мир.
Допустим, вы хотите обучить робота доставлять посылки. Если он учится в реальном мире, то каждое «неудачное» действие — это разбитый аппарат. А симуляторы часто слишком далеки от реальности, и агент начинает пользоваться их несовершенствами, что делает результаты обучения неприменимыми.
Альтернативный способ для создания умных агентов: агент учится воспроизводить траектории, созданные человеком. Проблема в том, что он может лишь копировать, но не создавать новые стратегии для достижения лучших результатов. RL, наоборот, строит стратегии сам, но упирается в проблему сложности и дороговизны.
Decision Transformer (DT) как раз призван решить эту проблему, генерируя на основе имеющихся данных новые стратегии. Он использует идеи RL и переформулирует проблему RL как задачу генерации последовательности.
Проще говоря, вместо «учимся через ошибки», DT говорит: «Вот данные о прошлом опыте, вот цель в виде суммы будущих наград — давайте сгенерируем траекторию, которая достигнет цель».
И это совершенно новый способ решения задач по управлению роботами. Подробнее о нём мы рассказали в новой статье: https://deepschool-pro.notion.site/Decision-Transformer-92feae6bd93d42da997cd44653f92a74?pvs=4
Обучение с подкреплением (RL) часто звучит как магия: агент учится решать задачи через взаимодействие с окружающей средой. Тыкнул сюда, получил минус балл, постараюсь больше так не делать. Тыкнул сюда, получил плюс балл — о, повторю!
Но в реальности всё сложнее. Представьте робота, которому нужно научиться управлять автомобилем. Для обучения требуется симулятор, который моделирует дорожные условия. Создать его — задача не из лёгких: это дорого, долго, а иногда просто невозможно. Более того, ошибки агента в симуляторе могут не просто «остаться в игре», но привести к серьёзным последствиям, если перенести их в реальный мир.
Допустим, вы хотите обучить робота доставлять посылки. Если он учится в реальном мире, то каждое «неудачное» действие — это разбитый аппарат. А симуляторы часто слишком далеки от реальности, и агент начинает пользоваться их несовершенствами, что делает результаты обучения неприменимыми.
Альтернативный способ для создания умных агентов: агент учится воспроизводить траектории, созданные человеком. Проблема в том, что он может лишь копировать, но не создавать новые стратегии для достижения лучших результатов. RL, наоборот, строит стратегии сам, но упирается в проблему сложности и дороговизны.
Decision Transformer (DT) как раз призван решить эту проблему, генерируя на основе имеющихся данных новые стратегии. Он использует идеи RL и переформулирует проблему RL как задачу генерации последовательности.
Проще говоря, вместо «учимся через ошибки», DT говорит: «Вот данные о прошлом опыте, вот цель в виде суммы будущих наград — давайте сгенерируем траекторию, которая достигнет цель».
И это совершенно новый способ решения задач по управлению роботами. Подробнее о нём мы рассказали в новой статье: https://deepschool-pro.notion.site/Decision-Transformer-92feae6bd93d42da997cd44653f92a74?pvs=4
deepschool-pro on Notion
Decision Transformer: модель для управления роботами | Notion
Автор: Шамиль Мамедов
❤8🔥4
За последние пару недель произошло много интересного.
Закончилась моя стажировка в Amazon, и последние дни пришлось работать очень много, чтобы получить хорошие результаты и задокументировать их. Позже обязательно расскажу, чем занимался во второй половине стажировки.
После её завершения я собрал вещи и вернулся в Бельгию. Сейчас живу как настоящий бродяга — то у одних друзей, то у других.
А сегодня состоялась моя предзащита диссертации! Всё прошло хорошо, сложных вопросов было немного. Публичная защита запланирована на 23 января, и после неё мне вручат сертификат. Тогда я смогу добавить к своему имени в LinkedIn заветное "PhD"😄.
До этого мне нужно успеть внести все правки, предложенные членами жюри, и подготовить презентацию высокого уровня для широкой публики. Думал, что смогу отдохнуть после предзащиты, но не тут-то было.
Закончилась моя стажировка в Amazon, и последние дни пришлось работать очень много, чтобы получить хорошие результаты и задокументировать их. Позже обязательно расскажу, чем занимался во второй половине стажировки.
После её завершения я собрал вещи и вернулся в Бельгию. Сейчас живу как настоящий бродяга — то у одних друзей, то у других.
А сегодня состоялась моя предзащита диссертации! Всё прошло хорошо, сложных вопросов было немного. Публичная защита запланирована на 23 января, и после неё мне вручат сертификат. Тогда я смогу добавить к своему имени в LinkedIn заветное "PhD"😄.
До этого мне нужно успеть внести все правки, предложенные членами жюри, и подготовить презентацию высокого уровня для широкой публики. Думал, что смогу отдохнуть после предзащиты, но не тут-то было.
❤11👍7🍾2🫡2😎2