Learning Generic and Dynamic Locomotion of Humanoids Across Discrete Terrains

要約

この論文では、最適化ベースの手法または強化学習 (RL) によって従来取り組まれてきた問題である、ヒューマノイド ロボットにおける地形適応型の動的移動の課題に取り組みます。
モデル予測制御などの最適化ベースの手法は、最適な反力を見つけ出し、特に四足歩行で機敏な移動を実現することに優れていますが、脚システムの非線形ハイブリッド ダイナミクスや、ステップの位置、タイミング、およびステップのリアルタイム計算には苦労します。
反力。
逆に、RL ベースの手法は、動的で起伏の多い地形をナビゲートする場合に有望ですが、広範なデータ要件によって制限されます。
我々は、モデル予測制御 (MPC) と全身インパルス制御 (WBIC) を組み合わせた最先端のモーション コントローラーと、簡素化された環境で RL を通じてトレーニングされたニューラル ネットワーク ポリシーを統合する、新しい移動アーキテクチャを紹介します。
このポリシーは、完全なダイナミクス シミュレーションを必要とせずに、歩行の選択やステップの位置決めなどの高レベルの移動戦略を効率的に学習します。
この制御アーキテクチャにより、人型ロボットは離散地形を動的に移動し、地上高マップに基づいて戦略的な移動決定 (歩行、ジャンプ、跳躍など) を行うことができます。
私たちの結果は、この統合制御アーキテクチャが従来の RL ベースの方法よりも大幅に少ないトレーニング サンプルで動的移動を実現し、追加のトレーニングなしでさまざまなヒューマノイド プラットフォームに転送できることを示しています。
制御アーキテクチャは動的シミュレーションで広範囲にテストされており、3 つの異なるロボットの地形の高さに基づいた動的移動を実現しています。

要約(オリジナル)

This paper addresses the challenge of terrain-adaptive dynamic locomotion in humanoid robots, a problem traditionally tackled by optimization-based methods or reinforcement learning (RL). Optimization-based methods, such as model-predictive control, excel in finding optimal reaction forces and achieving agile locomotion, especially in quadruped, but struggle with the nonlinear hybrid dynamics of legged systems and the real-time computation of step location, timing, and reaction forces. Conversely, RL-based methods show promise in navigating dynamic and rough terrains but are limited by their extensive data requirements. We introduce a novel locomotion architecture that integrates a neural network policy, trained through RL in simplified environments, with a state-of-the-art motion controller combining model-predictive control (MPC) and whole-body impulse control (WBIC). The policy efficiently learns high-level locomotion strategies, such as gait selection and step positioning, without the need for full dynamics simulations. This control architecture enables humanoid robots to dynamically navigate discrete terrains, making strategic locomotion decisions (e.g., walking, jumping, and leaping) based on ground height maps. Our results demonstrate that this integrated control architecture achieves dynamic locomotion with significantly fewer training samples than conventional RL-based methods and can be transferred to different humanoid platforms without additional training. The control architecture has been extensively tested in dynamic simulations, accomplishing terrain height-based dynamic locomotion for three different robots.

arxiv情報

著者 Shangqun Yu,Nisal Perera,Daniel Marew,Donghyun Kim
発行日 2024-05-27 14:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク