要約
強化学習 (RL) のサンプルの非効率性は、ロボット工学における重大な課題のままです。
RL には大規模なシミュレーションが必要ですが、それでもトレーニング時間が長くなり、研究やイノベーションが遅くなる可能性があります。
この問題は、信頼できる状態推定値が利用できないビジョンベースの制御タスクで特に顕著です。
微分可能シミュレーションは、ダイナミクス モデルを通じて勾配逆伝播を可能にし、分散の低い分析ポリシー勾配を提供することで、サンプル効率を高める代替手段を提供します。
ただし、現実世界のロボットタスクでの使用はまだ限定されています。
この研究は、クアッドローター制御を学習するための微分可能シミュレーションの大きな可能性を示しています。
微分可能シミュレーションでのトレーニングは、サンプル効率とトレーニング時間の両方の点でモデルフリー RL よりも大幅に優れており、車両の状態を提供する場合は数秒で、視覚的特徴のみに依存する場合は数分でクワッドローターを回復する方法をポリシーで学習できることを示します。
私たちの成功の鍵は 2 つあります。
まず、勾配計算に単純なサロゲート モデルを使用すると、制御パフォーマンスを犠牲にすることなくトレーニングが大幅に高速化されます。
第 2 に、状態表現学習とポリシー学習を組み合わせることで、視覚的な特徴のみが観察可能なタスクの収束速度が向上します。
これらの発見は、現実世界のロボット工学における微分可能なシミュレーションの可能性を強調し、従来の RL アプローチに代わる魅力的な選択肢を提供します。
要約(オリジナル)
The sample inefficiency of reinforcement learning (RL) remains a significant challenge in robotics. RL requires large-scale simulation and, still, can cause long training times, slowing down research and innovation. This issue is particularly pronounced in vision-based control tasks where reliable state estimates are not accessible. Differentiable simulation offers an alternative by enabling gradient back-propagation through the dynamics model, providing low-variance analytical policy gradients and, hence, higher sample efficiency. However, its usage for real-world robotic tasks has yet been limited. This work demonstrates the great potential of differentiable simulation for learning quadrotor control. We show that training in differentiable simulation significantly outperforms model-free RL in terms of both sample efficiency and training time, allowing a policy to learn to recover a quadrotor in seconds when providing vehicle state and in minutes when relying solely on visual features. The key to our success is two-fold. First, the use of a simple surrogate model for gradient computation greatly accelerates training without sacrificing control performance. Second, combining state representation learning with policy learning enhances convergence speed in tasks where only visual features are observable. These findings highlight the potential of differentiable simulation for real-world robotics and offer a compelling alternative to conventional RL approaches.
arxiv情報
著者 | Johannes Heeg,Yunlong Song,Davide Scaramuzza |
発行日 | 2024-10-21 13:06:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google