要約
脚式ロボットの移動のための強化学習では、効果的な報酬戦略を作成することが重要です。
事前定義された歩行パターンと複雑な報酬システムは、政策トレーニングを安定させるために広く使用されています。
エネルギー消費を最小限に抑えるために歩行を適応させる人間と動物の自然な移動行動を利用して、四足ロボットのさまざまな速度でのエネルギー効率の高い移動の開発を促進する、単純化されたエネルギー中心の報酬戦略を提案します。
適応エネルギー報酬関数を実装し、速度に基づいて重みを調整することにより、私たちのアプローチにより、ANYmal-C ロボットと Unitree Go1 ロボットが、低速での 4 拍歩行や高速での速歩など、適切な歩行を自律的に選択できることを実証しました。
複雑な報酬設計と事前の歩行知識を使用した以前の方法と比較して、エネルギー効率が向上し、安定した速度追跡が可能になります。
私たちのポリシーの有効性は、IsaacGym シミュレーション環境および実際のロボットでのシミュレーションを通じて検証され、安定した適応性のある移動を促進する可能性を実証しています。
要約(オリジナル)
In reinforcement learning for legged robot locomotion, crafting effective reward strategies is crucial. Pre-defined gait patterns and complex reward systems are widely used to stabilize policy training. Drawing from the natural locomotion behaviors of humans and animals, which adapt their gaits to minimize energy consumption, we propose a simplified, energy-centric reward strategy to foster the development of energy-efficient locomotion across various speeds in quadruped robots. By implementing an adaptive energy reward function and adjusting the weights based on velocity, we demonstrate that our approach enables ANYmal-C and Unitree Go1 robots to autonomously select appropriate gaits, such as four-beat walking at lower speeds and trotting at higher speeds, resulting in improved energy efficiency and stable velocity tracking compared to previous methods using complex reward designs and prior gait knowledge. The effectiveness of our policy is validated through simulations in the IsaacGym simulation environment and on real robots, demonstrating its potential to facilitate stable and adaptive locomotion.
arxiv情報
著者 | Boyuan Liang,Lingfeng Sun,Xinghao Zhu,Bike Zhang,Ziyin Xiong,Chenran Li,Koushil Sreenath,Masayoshi Tomizuka |
発行日 | 2024-03-29 06:28:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google