要約
脚式ロボットの最適制御は、位置ベースの制御からトルクベースの制御へのパラダイムシフトを経ています。これは、後者の順守性と堅牢性のおかげです。
この変化と並行して、コミュニティは、現実の複雑なタスクの移動ポリシーを直接学習するための有望なアプローチとして、深層強化学習 (DRL) にも注目しています。
ただし、ほとんどのエンドツーエンド DRL アプローチは依然として位置空間で動作します。これは主に、トルク空間での学習はサンプル効率が悪く、一貫して自然な歩行に収束しないためです。
これらの課題に対処するために、脚の運動のためのトルク ポリシーを学習して展開するための新しい 3 段階のフレームワークである Decaying Action Priors (DecAP) を導入します。
最初の段階では、位置ポリシーをトレーニングすることで独自の模倣データを生成し、最適なコントローラーを設計するための専門知識は必要ありません。
第 2 段階では、減衰アクション事前分布を組み込んで、模倣報酬を活用したトルクベースのポリシーの探索を強化します。
私たちのアプローチは一貫して模倣学習単独よりも優れており、これらの報酬のスケーリングに対して非常に堅牢であることを示します。
最後に、第 3 段階では、学習した位置ポリシーによる低ゲイン PID 制御と並行して、学習したトルクを直接展開することで、安全なシミュレーションからリアルへの変換を促進します。
二足歩行、四足歩行、および六足歩行ロボットのトルクベースの移動ポリシーをシミュレーションでトレーニングすることでアプローチの一般性を実証し、学習したポリシーを四足歩行ロボット (Unitree Go1) で実験的に実証します。
要約(オリジナル)
Optimal Control for legged robots has gone through a paradigm shift from position-based to torque-based control, owing to the latter’s compliant and robust nature. In parallel to this shift, the community has also turned to Deep Reinforcement Learning (DRL) as a promising approach to directly learn locomotion policies for complex real-life tasks. However, most end-to-end DRL approaches still operate in position space, mainly because learning in torque space is often sample-inefficient and does not consistently converge to natural gaits. To address these challenges, we introduce Decaying Action Priors (DecAP), a novel three-stage framework to learn and deploy torque policies for legged locomotion. In the first stage, we generate our own imitation data by training a position policy, eliminating the need for expert knowledge in designing optimal controllers. The second stage incorporates decaying action priors to enhance the exploration of torque-based policies aided by imitation rewards. We show that our approach consistently outperforms imitation learning alone and is significantly robust to the scaling of these rewards. Finally, our third stage facilitates safe sim-to-real transfer by directly deploying our learned torques, alongside low-gain PID control from our trained position policy. We demonstrate the generality of our approach by training torque-based locomotion policies for a biped, a quadruped, and a hexapod robot in simulation, and experimentally demonstrate our learned policies on a quadruped (Unitree Go1).
arxiv情報
| 著者 | Shivam Sood,Ge Sun,Peizhuo Li,Guillaume Sartoretti |
| 発行日 | 2023-10-09 13:38:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google