要約
深層強化学習 (RL) ベースの技術の最近の進歩とシミュレーションでのトレーニングの組み合わせにより、脚式ロボット用の堅牢なコントローラーを開発するための新しいアプローチが提供されました。
ただし、このようなアプローチを実際のハードウェアに適用できるのは、主に、直接駆動アクチュエータを備えた四足歩行ロボットと、低ギア比の伝達システムを備えた軽量二足歩行ロボットに限られていました。
実際の等身大の人型ロボットへの適用は、おそらく sim2real ギャップが大きいため、あまり一般的ではありません。
この論文では、アクチュエータ レベルでの不正確なトルク追跡から生じるヒューマノイド ロボットの sim2real ギャップ問題を効果的に克服するためのアプローチを紹介します。
私たちの重要なアイデアは、トルク追跡が不十分で人為的に劣化したシミュレーション環境でポリシーをトレーニングした後、実際のロボットのアクチュエータからの電流フィードバックを利用することです。
私たちのアプローチは、実際の HRP-5P ヒューマノイド ロボットに展開して二足歩行を実現できる、統合されたエンドツーエンドのポリシーをシミュレーションでトレーニングすることに成功しました。
また、アブレーションを通じて、ターゲットを絞ったダイナミクスのランダム化と組み合わせたフィードフォワード ポリシー アーキテクチャがゼロショット sim2real の成功に十分であることも示し、したがって、計算コストのかかるメモリベースのネットワーク アーキテクチャの必要性が排除されます。
最後に、実際のロボットで凹凸のある地形を歩行するための従来のモデルベースのコントローラーとそのパフォーマンスを比較することにより、提案された RL ポリシーの堅牢性を検証します。
要約(オリジナル)
Recent advances in deep reinforcement learning (RL) based techniques combined with training in simulation have offered a new approach to developing robust controllers for legged robots. However, the application of such approaches to real hardware has largely been limited to quadrupedal robots with direct-drive actuators and light-weight bipedal robots with low gear-ratio transmission systems. Application to real, life-sized humanoid robots has been less common arguably due to a large sim2real gap. In this paper, we present an approach for effectively overcoming the sim2real gap issue for humanoid robots arising from inaccurate torque-tracking at the actuator level. Our key idea is to utilize the current feedback from the actuators on the real robot, after training the policy in a simulation environment artificially degraded with poor torque-tracking. Our approach successfully trains a unified, end-to-end policy in simulation that can be deployed on a real HRP-5P humanoid robot to achieve bipedal locomotion. Through ablations, we also show that a feedforward policy architecture combined with targeted dynamics randomization is sufficient for zero-shot sim2real success, thus eliminating the need for computationally expensive, memory-based network architectures. Finally, we validate the robustness of the proposed RL policy by comparing its performance against a conventional model-based controller for walking on uneven terrain with the real robot.
arxiv情報
| 著者 | Rohan Pratap Singh,Zhaoming Xie,Pierre Gergondet,Fumio Kanehiro |
| 発行日 | 2023-08-07 05:52:36+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google