Training Efficient Controllers via Analytic Policy Gradient

要約

タイトル: Analytic Policy Gradientを使った効率的なコントローラのトレーニング

要約:
– ロボットシステムの制御設計は複雑であり、正確な軌跡を追従するために最適化問題を解く必要がある。
– MPCなどのオンライン最適化手法は優れた追跡性能を発揮するが、高い計算能力が必要である。
– 一方、強化学習などの学習ベースのオフライン最適化手法は、ロボットでの高速かつ効率的な実行を可能にするが、軌跡追跡タスクにおいてMPCの精度には及ばない。
– 空中機体などの計算能力に制限があるシステムでは、実行時間が効率的な正確なコントローラが必要である。
– 本研究では、Analytic Policy Gradient(APG)メソッドを提案して、この問題を対処する。
– APGは、微分可能なシミュレータの利用可能性を利用して、追跡誤差に対する勾配降下法を使用してオフラインでコントローラをトレーニングすることにより、トレーニング不安定性に対処する。
– CartPole、四輪ローター、および固定翼ドローンなど、広く使用される制御ベンチマークで実験を行い、提案手法は追跡エラーにおいてモデルベースおよびモデルフリーRL手法を上回っている。
– 同時に、より10倍以上の計算時間が必要であるMPCと同等のパフォーマンスを達成する。
– 本研究の成果により、APGがロボティクスの有望な制御法としての可能性を提供し、探索を促進するためにコードをオープンソースで公開した。

要約(オリジナル)

Control design for robotic systems is complex and often requires solving an optimization to follow a trajectory accurately. Online optimization approaches like Model Predictive Control (MPC) have been shown to achieve great tracking performance, but require high computing power. Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks. In systems with limited compute, such as aerial vehicles, an accurate controller that is efficient at execution time is imperative. We propose an Analytic Policy Gradient (APG) method to tackle this problem. APG exploits the availability of differentiable simulators by training a controller offline with gradient descent on the tracking error. We address training instabilities that frequently occur with APG through curriculum learning and experiment on a widely used controls benchmark, the CartPole, and two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed method outperforms both model-based and model-free RL methods in terms of tracking error. Concurrently, it achieves similar performance to MPC while requiring more than an order of magnitude less computation time. Our work provides insights into the potential of APG as a promising control method for robotics. To facilitate the exploration of APG, we open-source our code and make it available at https://github.com/lis-epfl/apg_trajectory_tracking.

arxiv情報

著者 Nina Wiedemann,Valentin Wüest,Antonio Loquercio,Matthias Müller,Dario Floreano,Davide Scaramuzza
発行日 2023-05-02 21:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.RO パーマリンク