Training Efficient Controllers via Analytic Policy Gradient

要約

ロボット システムの制御設計は複雑で、多くの場合、軌道を正確にたどるために最適化を解く必要があります。
モデル予測制御 (MPC) などのオンライン最適化アプローチは、優れた追跡性能を達成することが示されていますが、高い計算能力が必要です。
逆に、強化学習 (RL) などの学習ベースのオフライン最適化アプローチは、ロボットでの高速かつ効率的な実行を可能にしますが、軌道追跡タスクでは MPC の精度とほとんど一致しません。
航空機などの計算が制限されたシステムでは、実行時に効率的な正確なコントローラーが不可欠です。
この問題に取り組むために、Analytic Policy Gradient (APG) 法を提案します。
APG は、トラッキング エラーの勾配降下を使用してコントローラーをオフラインでトレーニングすることにより、微分可能なシミュレーターの可用性を活用します。
APG で頻繁に発生するトレーニングの不安定性に対処するために、カリキュラムの学習と、広く使用されているコントロール ベンチマークである CartPole、および 2 つの一般的な空中ロボットであるクアッドローターと固定翼ドローンでの実験を行います。
提案された方法は、追跡エラーの点で、モデルベースおよびモデルフリーの両方の RL 方法よりも優れています。
同時に、MPC と同様のパフォーマンスを実現しながら、必要な計算時間は 1 桁以上少なくなります。
私たちの仕事は、ロボット工学の有望な制御方法としての APG の可能性についての洞察を提供します。
APG の探索を容易にするために、コードをオープンソース化し、https://github.com/lis-epfl/apg_trajectory_tracking で利用できるようにします。

要約(オリジナル)

Control design for robotic systems is complex and often requires solving an optimization to follow a trajectory accurately. Online optimization approaches like Model Predictive Control (MPC) have been shown to achieve great tracking performance, but require high computing power. Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks. In systems with limited compute, such as aerial vehicles, an accurate controller that is efficient at execution time is imperative. We propose an Analytic Policy Gradient (APG) method to tackle this problem. APG exploits the availability of differentiable simulators by training a controller offline with gradient descent on the tracking error. We address training instabilities that frequently occur with APG through curriculum learning and experiment on a widely used controls benchmark, the CartPole, and two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed method outperforms both model-based and model-free RL methods in terms of tracking error. Concurrently, it achieves similar performance to MPC while requiring more than an order of magnitude less computation time. Our work provides insights into the potential of APG as a promising control method for robotics. To facilitate the exploration of APG, we open-source our code and make it available at https://github.com/lis-epfl/apg_trajectory_tracking.

arxiv情報

著者 Nina Wiedemann,Valentin Wüest,Antonio Loquercio,Matthias Müller,Dario Floreano,Davide Scaramuzza
発行日 2023-03-02 18:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク