要約
深層強化学習は、四足歩行ロボットの移動コントローラーを開発するための一般的で強力な方法として登場しました。
一般的なアプローチは、関節空間で直接行動を学習すること、または軌道ジェネレーターによって生成された足の位置を変更およびオフセットすることを学習することに主に焦点を当ててきました。
どちらのアプローチも通常、何百万もの時間ステップで慎重な報酬の形成とトレーニングを必要とし、軌道ジェネレーターを使用すると、結果の制御ポリシーに人間のバイアスが導入されます。
この論文では、四足歩行ロボットの高速で堅牢な境界ポリシーの自然な出現につながる学習フレームワークを提示します。
エージェントは、タスク空間でアクションを直接選択および制御して、モデルの不確実性や起伏の多い地形などの環境ノイズの影響を受けて、目的の速度コマンドを追跡します。
このフレームワークにより、サンプルの効率が向上し、報酬のシェーピングがほとんど必要なくなり、ギャロッピングやバウンディングなどの自然な歩行が出現し、実行速度でのシミュレーションから実際への移行が容易になることがわかります。
規定の四足歩行質量の 100% を超える負荷がかかる起伏の多い地形を走るという困難なタスクであっても、ポリシーはわずか数百万時間ステップで学習できます。
トレーニングは PyBullet で行われ、Gazebo への sim-to-sim 転送と Unitree A1 ハードウェアへの sim-to-real 転送を実行します。
sim-to-sim の場合、結果は、四足動物が負荷なしで 4 m/s 以上、10 kg 負荷で 3.5 m/s 以上で実行できることを示しています。これは公称四足歩行質量の 83% を超えています。
sim-to-real の場合、Unitree A1 は 5 kg の負荷で 2 m/s でバウンドすることができ、公称四足質量の 42% に相当します。
要約(オリジナル)
Deep reinforcement learning has emerged as a popular and powerful way to develop locomotion controllers for quadruped robots. Common approaches have largely focused on learning actions directly in joint space, or learning to modify and offset foot positions produced by trajectory generators. Both approaches typically require careful reward shaping and training for millions of time steps, and with trajectory generators introduce human bias into the resulting control policies. In this paper, we present a learning framework that leads to the natural emergence of fast and robust bounding policies for quadruped robots. The agent both selects and controls actions directly in task space to track desired velocity commands subject to environmental noise including model uncertainty and rough terrain. We observe that this framework improves sample efficiency, necessitates little reward shaping, leads to the emergence of natural gaits such as galloping and bounding, and eases the sim-to-real transfer at running speeds. Policies can be learned in only a few million time steps, even for challenging tasks of running over rough terrain with loads of over 100% of the nominal quadruped mass. Training occurs in PyBullet, and we perform a sim-to-sim transfer to Gazebo and sim-to-real transfer to the Unitree A1 hardware. For sim-to-sim, our results show the quadruped is able to run at over 4 m/s without a load, and 3.5 m/s with a 10 kg load, which is over 83% of the nominal quadruped mass. For sim-to-real, the Unitree A1 is able to bound at 2 m/s with a 5 kg load, representing 42% of the nominal quadruped mass.
arxiv情報
著者 | Guillaume Bellegarda,Yiyu Chen,Zhuochen Liu,Quan Nguyen |
発行日 | 2023-03-15 13:22:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google