Template Model Inspired Task Space Learning for Robust Bipedal Locomotion

要約

この研究では、タスク空間コマンドのオンライン生成のための強化学習 (RL) ベースの高レベル (HL) プランナー ポリシーと、タスク空間コマンドを追跡するためのモデルベースの低レベル (LL) コントローラーを組み合わせた、二足歩行のための階層フレームワークを提示します。
目的のタスク空間の軌道。
従来のエンドツーエンドの学習アプローチとは異なり、当社の HL ポリシーは、角運動量ベースの線形倒立振子 (ALIP) から洞察を取得して、マルコフ決定プロセス (MDP) の観察空間とアクション空間を慎重に設計します。
このシンプルかつ効果的な設計により、二足歩行の複雑なダイナミクスを効果的に捉える低次元状態と、ロボットの歩行を形作る一連のタスク空間出力との間の洞察力に富んだマッピングが作成されます。
HL ポリシーはタスク スペース LL コントローラーに依存しないため、設計の柔軟性が向上し、フレームワークを他の二足歩行ロボットに一般化できます。
この階層設計により、ALIP モデルベースのアプローチや二足歩行用の最先端の学習ベースのフレームワークと比較して、パフォーマンス、データ効率、堅牢性が向上した学習ベースのフレームワークが実現します。
提案された階層コントローラーは 3 つの異なるロボットでテストされます。Rabbit は 5 リンクの非作動平面二足歩行ロボットです。
Walker2D、7 リンクの完全に作動する平面二足歩行モデル。
Digit は、20 個の作動関節を備えた 3D ヒューマノイド ロボットです。
訓練されたポリシーは人間のような移動行動を自然に学習し、敵対的な条件下でも歩行の堅牢性と安定性を維持しながら、広範囲の歩行速度を効果的に追跡することができます。

要約(オリジナル)

This work presents a hierarchical framework for bipedal locomotion that combines a Reinforcement Learning (RL)-based high-level (HL) planner policy for the online generation of task space commands with a model-based low-level (LL) controller to track the desired task space trajectories. Different from traditional end-to-end learning approaches, our HL policy takes insights from the angular momentum-based linear inverted pendulum (ALIP) to carefully design the observation and action spaces of the Markov Decision Process (MDP). This simple yet effective design creates an insightful mapping between a low-dimensional state that effectively captures the complex dynamics of bipedal locomotion and a set of task space outputs that shape the walking gait of the robot. The HL policy is agnostic to the task space LL controller, which increases the flexibility of the design and generalization of the framework to other bipedal robots. This hierarchical design results in a learning-based framework with improved performance, data efficiency, and robustness compared with the ALIP model-based approach and state-of-the-art learning-based frameworks for bipedal locomotion. The proposed hierarchical controller is tested in three different robots, Rabbit, a five-link underactuated planar biped; Walker2D, a seven-link fully-actuated planar biped; and Digit, a 3D humanoid robot with 20 actuated joints. The trained policy naturally learns human-like locomotion behaviors and is able to effectively track a wide range of walking speeds while preserving the robustness and stability of the walking gait even under adversarial conditions.

arxiv情報

著者 Guillermo A. Castillo,Bowen Weng,Shunpeng Yang,Wei Zhang,Ayonga Hereid
発行日 2023-09-27 07:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク