Learning Quadruped Locomotion Using Differentiable Simulation

要約

この研究では、四足歩行の学習に微分可能なシミュレーションを使用する可能性を探ります。
微分可能なシミュレーションは、ロボット ダイナミクスを使用して分散の低い一次勾配を計算することで、高速な収束と安定したトレーニングを約束します。
ただし、脚式ロボットの用途は依然としてシミュレーションに限定されています。
主な課題は、不連続なダイナミクスによるロボット タスクの複雑な最適化環境にあります。
この研究は、これらの課題を克服するための新しい微分可能なシミュレーション フレームワークを提案します。
私たちのアプローチは、順ダイナミクス用の高忠実度の非微分可能シミュレーターと、勾配逆伝播用の簡略化されたサロゲート モデルを組み合わせています。
このアプローチでは、サロゲート モデルのロボットの状態を正確な微分不可能なシミュレーターの状態と調整することで、シミュレーションの精度を維持します。
私たちのフレームワークでは、並列化を行わずにシミュレーションで四足歩行を数分で学習できます。
私たちのアプローチを GPU 並列化で強化すると、四足ロボットは困難な地形での多様な移動スキルを数分で習得できるようになります。
私たちは、微分可能シミュレーションが、大規模環境の処理における有効性を維持しながら、大幅に優れたサンプル効率を達成することにより、強化学習アルゴリズム (PPO) よりも優れたパフォーマンスを発揮することを実証します。
私たちの手法は、現実世界の四足歩行への微分可能シミュレーションの最初の成功した応用の 1 つであり、従来の RL 手法に代わる魅力的な手法を提供します。

要約(オリジナル)

This work explores the potential of using differentiable simulation for learning quadruped locomotion. Differentiable simulation promises fast convergence and stable training by computing low-variance first-order gradients using robot dynamics. However, its usage for legged robots is still limited to simulation. The main challenge lies in the complex optimization landscape of robotic tasks due to discontinuous dynamics. This work proposes a new differentiable simulation framework to overcome these challenges. Our approach combines a high-fidelity, non-differentiable simulator for forward dynamics with a simplified surrogate model for gradient backpropagation. This approach maintains simulation accuracy by aligning the robot states from the surrogate model with those of the precise, non-differentiable simulator. Our framework enables learning quadruped walking in simulation in minutes without parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills on challenging terrains in minutes. We demonstrate that differentiable simulation outperforms a reinforcement learning algorithm (PPO) by achieving significantly better sample efficiency while maintaining its effectiveness in handling large-scale environments. Our method represents one of the first successful applications of differentiable simulation to real-world quadruped locomotion, offering a compelling alternative to traditional RL methods.

arxiv情報

著者 Yunlong Song,Sangbae Kim,Davide Scaramuzza
発行日 2024-10-14 17:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク