要約
ロボット工学における未解決の研究課題は、強力なタスク パフォーマンスと一般的な報酬定式化の最適化における柔軟性で知られるモデルフリー強化学習 (RL) の利点と、モデル予測制御 (MPC) の堅牢性およびオンライン再計画機能をどのように組み合わせるかということです。
。
この論文では、Actor-Critic Model Predictive Control と呼ばれる新しいフレームワークを導入することで、その答えを提供します。
重要なアイデアは、アクター批判的な RL フレームワーク内に微分可能な MPC を組み込むことです。
提案されたアプローチは、MPC の短期予測最適化機能と、RL の探索的およびエンドツーエンドのトレーニング特性を活用します。
結果として得られるポリシーは、MPC ベースのアクターを介した短期的な決定と、クリティカル ネットワークを介した長期的な予測の両方を効果的に管理し、モデルベースの制御とエンドツーエンドの学習の両方の利点を統合します。
さまざまな高レベルのタスクにわたって、クアッドコプター プラットフォームを使用して、シミュレーションと現実世界の両方でメソッドを検証します。
提案したアーキテクチャがリアルタイム制御パフォーマンスを達成し、試行錯誤を通じて複雑な動作を学習し、分布外の動作をより適切に処理するために MPC の予測特性を保持できることを示します。
要約(オリジナル)
An open research question in robotics is how to combine the benefits of model-free reinforcement learning (RL) – known for its strong task performance and flexibility in optimizing general reward formulations – with the robustness and online replanning capabilities of model predictive control (MPC). This paper provides an answer by introducing a new framework called Actor-Critic Model Predictive Control. The key idea is to embed a differentiable MPC within an actor-critic RL framework. The proposed approach leverages the short-term predictive optimization capabilities of MPC with the exploratory and end-to-end training properties of RL. The resulting policy effectively manages both short-term decisions through the MPC-based actor and long-term prediction via the critic network, unifying the benefits of both model-based control and end-to-end learning. We validate our method in both simulation and the real world with a quadcopter platform across various high-level tasks. We show that the proposed architecture can achieve real-time control performance, learn complex behaviors via trial and error, and retain the predictive properties of the MPC to better handle out of distribution behaviour.
arxiv情報
著者 | Angel Romero,Yunlong Song,Davide Scaramuzza |
発行日 | 2024-04-12 13:24:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google