Template Model Inspired Task Space Learning for Robust Bipedal Locomotion


この研究では、タスク空間コマンドのオンライン生成のための強化学習 (RL) ベースの高レベル (HL) プランナー ポリシーと、タスク空間コマンドを追跡するためのモデルベースの低レベル (LL) コントローラーを組み合わせた、二足歩行のための階層フレームワークを提示します。
従来のエンドツーエンドの学習アプローチとは異なり、当社の HL ポリシーは、角運動量ベースの線形倒立振子 (ALIP) から洞察を取得して、マルコフ決定プロセス (MDP) の観察空間とアクション空間を慎重に設計します。
HL ポリシーはタスク スペース LL コントローラーに依存しないため、設計の柔軟性が向上し、フレームワークを他の二足歩行ロボットに一般化できます。
この階層設計により、ALIP モデルベースのアプローチや二足歩行用の最先端の学習ベースのフレームワークと比較して、パフォーマンス、データ効率、堅牢性が向上した学習ベースのフレームワークが実現します。
提案された階層コントローラーは 3 つの異なるロボットでテストされます。Rabbit は 5 リンクの非作動平面二足歩行ロボットです。
Walker2D、7 リンクの完全に作動する平面二足歩行モデル。
Digit は、20 個の作動関節を備えた 3D ヒューマノイド ロボットです。


This work presents a hierarchical framework for bipedal locomotion that combines a Reinforcement Learning (RL)-based high-level (HL) planner policy for the online generation of task space commands with a model-based low-level (LL) controller to track the desired task space trajectories. Different from traditional end-to-end learning approaches, our HL policy takes insights from the angular momentum-based linear inverted pendulum (ALIP) to carefully design the observation and action spaces of the Markov Decision Process (MDP). This simple yet effective design creates an insightful mapping between a low-dimensional state that effectively captures the complex dynamics of bipedal locomotion and a set of task space outputs that shape the walking gait of the robot. The HL policy is agnostic to the task space LL controller, which increases the flexibility of the design and generalization of the framework to other bipedal robots. This hierarchical design results in a learning-based framework with improved performance, data efficiency, and robustness compared with the ALIP model-based approach and state-of-the-art learning-based frameworks for bipedal locomotion. The proposed hierarchical controller is tested in three different robots, Rabbit, a five-link underactuated planar biped; Walker2D, a seven-link fully-actuated planar biped; and Digit, a 3D humanoid robot with 20 actuated joints. The trained policy naturally learns human-like locomotion behaviors and is able to effectively track a wide range of walking speeds while preserving the robustness and stability of the walking gait even under adversarial conditions.


著者 Guillermo A. Castillo,Bowen Weng,Shunpeng Yang,Wei Zhang,Ayonga Hereid
発行日 2023-09-27 07:06:02+00:00
arxivサイト arxiv_id(pdf)

