Learning Quadruped Locomotion Using Differentiable Simulation

要約

脚式ロボット制御における最近の進歩はモデルフリーの強化学習によって推進されていますが、私たちは微分可能なシミュレーションの可能性を探ります。
微分可能シミュレーションは、ロボット モデルを使用して低分散の一次勾配を計算することで、より高速な収束とより安定したトレーニングを約束しますが、これまでのところ、脚式ロボット制御への使用はシミュレーションに限定されています。
微分可能シミュレーションの主な課題は、四足歩行など接触の多い環境における不連続性によるロボットタスクの複雑な最適化状況にあります。
この研究は、これらの課題を克服するための新しい微分可能なシミュレーション フレームワークを提案します。
重要なアイデアには、接触による不連続性を示す可能性がある複雑な全身シミュレーションを 2 つの別々の連続ドメインに分離することが含まれます。
その後、十分なシミュレーション精度を維持するために、単純化されたモデルから得られたロボットの状態をより正確な微分不可能なシミュレーターと調整します。
私たちのフレームワークでは、並列化を行わずに単一のシミュレートされたロボットを使用して、数分で四足歩行を学習できます。
私たちのアプローチを GPU 並列化で強化すると、四足ロボットは困難な地形で速歩、ペース、バウンド、ギャロップなどの多様な移動スキルを数分で習得できるようになります。
さらに、私たちのポリシーは、現実世界のゼロショットで堅牢な移動パフォーマンスを実現します。
私たちの知る限り、この研究は、実際の四足ロボットを制御するために微分可能なシミュレーションを使用する最初のデモンストレーションを表しています。
この研究は、現実世界での脚の移動に微分可能なシミュレーションを使用することについて、いくつかの重要な洞察を提供します。

要約(オリジナル)

While most recent advancements in legged robot control have been driven by model-free reinforcement learning, we explore the potential of differentiable simulation. Differentiable simulation promises faster convergence and more stable training by computing low-variant first-order gradients using the robot model, but so far, its use for legged robot control has remained limited to simulation. The main challenge with differentiable simulation lies in the complex optimization landscape of robotic tasks due to discontinuities in contact-rich environments, e.g., quadruped locomotion. This work proposes a new, differentiable simulation framework to overcome these challenges. The key idea involves decoupling the complex whole-body simulation, which may exhibit discontinuities due to contact, into two separate continuous domains. Subsequently, we align the robot state resulting from the simplified model with a more precise, non-differentiable simulator to maintain sufficient simulation accuracy. Our framework enables learning quadruped walking in minutes using a single simulated robot without any parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills, including trot, pace, bound, and gallop, on challenging terrains in minutes. Additionally, our policy achieves robust locomotion performance in the real world zero-shot. To the best of our knowledge, this work represents the first demonstration of using differentiable simulation for controlling a real quadruped robot. This work provides several important insights into using differentiable simulations for legged locomotion in the real world.

arxiv情報

著者 Yunlong Song,Sangbae Kim,Davide Scaramuzza
発行日 2024-03-21 22:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク