Learning Quadrotor Control From Visual Features Using Differentiable Simulation

要約

補強学習のサンプル非効率性(RL)は、ロボット工学における依然として大きな課題です。
RLは大規模なシミュレーションを必要とし、長いトレーニング時間を引き起こし、研究と革新を遅らせる可能性があります。
この問題は、信頼できる状態推定値にアクセスできないビジョンベースの制御タスクで特に顕著です。
微分可能なシミュレーションは、ダイナミクスモデルを介してグラデーションバックプロパゲーションを有効にし、低変異分析ポリシーの勾配を提供し、したがってサンプル効率を高めることにより、代替手段を提供します。
ただし、実際のロボットタスクの使用はまだ制限されています。
この作業は、象限制御を学習するための微分可能なシミュレーションの大きな可能性を示しています。
微分可能なシミュレーションでのトレーニングは、サンプルの効率とトレーニング時間の両方の点でモデルフリーのRLを大幅に上回ることを示しており、車両状態を提供する際に数秒で四角体を回復することを学ぶことができ、視覚的な機能のみに依存する際に数分で四角体を回復することができます。
私たちの成功の鍵は2つあります。
まず、グラデーション計算に単純な代理モデルを使用すると、制御性能を犠牲にすることなくトレーニングが大幅に加速します。
第二に、状態表現学習とポリシー学習を組み合わせることで、視覚的な機能のみが観察可能なタスクの収束速度が向上します。
これらの調査結果は、実際のロボット工学の微分可能なシミュレーションの可能性を強調し、従来のRLアプローチに魅力的な代替品を提供します。

要約(オリジナル)

The sample inefficiency of reinforcement learning (RL) remains a significant challenge in robotics. RL requires large-scale simulation and can still cause long training times, slowing research and innovation. This issue is particularly pronounced in vision-based control tasks where reliable state estimates are not accessible. Differentiable simulation offers an alternative by enabling gradient back-propagation through the dynamics model, providing low-variance analytical policy gradients and, hence, higher sample efficiency. However, its usage for real-world robotic tasks has yet been limited. This work demonstrates the great potential of differentiable simulation for learning quadrotor control. We show that training in differentiable simulation significantly outperforms model-free RL in terms of both sample efficiency and training time, allowing a policy to learn to recover a quadrotor in seconds when providing vehicle states and in minutes when relying solely on visual features. The key to our success is two-fold. First, the use of a simple surrogate model for gradient computation greatly accelerates training without sacrificing control performance. Second, combining state representation learning with policy learning enhances convergence speed in tasks where only visual features are observable. These findings highlight the potential of differentiable simulation for real-world robotics and offer a compelling alternative to conventional RL approaches.

arxiv情報

著者 Johannes Heeg,Yunlong Song,Davide Scaramuzza
発行日 2025-03-06 17:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク