Actor-Critic Model Predictive Control: Differentiable Optimization meets Reinforcement Learning

要約

ロボット工学におけるオープンな研究の質問は、モデルのないタスクのパフォーマンスと一般的な報酬の定式化の最適化における柔軟性で知られるモデルフリー強化学習(RL)の利点を組み合わせる方法と、モデル予測制御(MPC)の堅牢性とオンラインの再生機能を組み合わせることです。

このペーパーでは、Actor-Critic Model Predictive Controlという新しいフレームワークを導入することにより、回答を提供します。
重要なアイデアは、俳優critic RLフレームワークに微分可能なMPCを埋め込むことです。
この統合により、MPCを介した制御アクションの短期予測最適化が可能になり、長い視野にわたってエンドツーエンドの学習と探索のためにRLを活用できます。
さまざまなアブレーション研究を通じて、提案されたアプローチの利点を明らかにします。それは、より良い分散式行動、ダイナミクスの変化に対するより良い堅牢性を達成し、サンプル効率を改善します。
さらに、批評家の学習価値関数と微分可能なMPCのコスト関数との関係を明らかにする経験的分析を実施し、批評家の価値とMPCコスト関数の相互作用をより深く理解します。
最後に、シミュレーションと現実世界の両方で、さまざまなトラックのドローンレースタスクでメソッドを検証します。
私たちの方法は、最先端のモデルのないRLと同じ超人性パフォーマンスを達成し、最大21 m/sの速度を紹介します。
提案されたアーキテクチャは、リアルタイムの制御パフォーマンスを実現し、試行錯誤を介して複雑な動作を学習し、MPCの予測特性を保持して、分散型の動作をよりよく処理することができることを示します。

要約(オリジナル)

An open research question in robotics is how to combine the benefits of model-free reinforcement learning (RL) – known for its strong task performance and flexibility in optimizing general reward formulations – with the robustness and online replanning capabilities of model predictive control (MPC). This paper provides an answer by introducing a new framework called Actor-Critic Model Predictive Control. The key idea is to embed a differentiable MPC within an actor-critic RL framework. This integration allows for short-term predictive optimization of control actions through MPC, while leveraging RL for end-to-end learning and exploration over longer horizons. Through various ablation studies, we expose the benefits of the proposed approach: it achieves better out-of-distribution behaviour, better robustness to changes in the dynamics and improved sample efficiency. Additionally, we conduct an empirical analysis that reveals a relationship between the critic’s learned value function and the cost function of the differentiable MPC, providing a deeper understanding of the interplay between the critic’s value and the MPC cost functions. Finally, we validate our method in a drone racing task on different tracks, in both simulation and the real world. Our method achieves the same superhuman performance as state-of-the-art model-free RL, showcasing speeds of up to 21 m/s. We show that the proposed architecture can achieve real-time control performance, learn complex behaviors via trial and error, and retain the predictive properties of the MPC to better handle out-of-distribution behavior.

arxiv情報

著者 Angel Romero,Elie Aljalbout,Yunlong Song,Davide Scaramuzza
発行日 2025-02-05 10:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, G.1.6 パーマリンク