Experience-Learning Inspired Two-Step Reward Method for Efficient Legged Locomotion Learning Towards Natural and Robust Gaits

要約

多脚ロボットは複雑な地形での安定性を高めますが、そのような環境で自然で堅牢な動作を自律的に学習することは依然として困難です。
単純なタスクから複雑なタスクまで、動物の漸進的な学習パターンからインスピレーションを得て、自己獲得経験に基づいた 2 段階の報酬設定を備えた普遍的な 2 段階学習フレームワークを導入します。これにより、脚式ロボットが自然で堅牢な動きを段階的に効率的に学習できるようになります。
第 1 段階では、ロボットは歩行関連の報酬を通じて平坦な地形での速度を追跡することを学習し、自然で堅牢な動きを獲得し、効果的な動作経験データを生成します。
第 2 段階では、既存の経験からの動物の学習を反映し、ロボットは敵対的な模倣学習を使用して、自然で堅牢な動きで困難な地形を移動することを学習します。
私たちの手法の有効性を実証するために、四足ロボットと六足ロボットの両方を訓練しました。その方針は物理的な四足ロボット GO1 にうまく適用され、さまざまな地形で自然な歩行パターンと顕著な堅牢性を示しました。

要約(オリジナル)

Multi-legged robots offer enhanced stability in complex terrains, yet autonomously learning natural and robust motions in such environments remains challenging. Drawing inspiration from animals’ progressive learning patterns, from simple to complex tasks, we introduce a universal two-stage learning framework with two-step reward setting based on self-acquired experience, which efficiently enables legged robots to incrementally learn natural and robust movements. In the first stage, robots learn through gait-related rewards to track velocity on flat terrain, acquiring natural, robust movements and generating effective motion experience data. In the second stage, mirroring animal learning from existing experiences, robots learn to navigate challenging terrains with natural and robust movements using adversarial imitation learning. To demonstrate our method’s efficacy, we trained both quadruped robots and a hexapod robot, and the policy were successfully transferred to a physical quadruped robot GO1, which exhibited natural gait patterns and remarkable robustness in various terrains.

arxiv情報

著者 Yinghui Li,Jinze Wu,Xin Liu,Weizhong Guo,Yufei Xue
発行日 2024-01-22 22:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク