要約
成功にもかかわらず、モデル予測制御 (MPC) は多くの場合、集中的なタスク固有のエンジニアリングと調整を必要とします。
一方、強化学習 (RL) アーキテクチャはこの労力を最小限に抑えますが、広範なデータ収集が必要であり、解釈可能性と安全性に欠けています。
未解決の研究課題は、RL と MPC の利点をどのように組み合わせて、両方の長所を最大限に活用するかということです。
このペーパーでは、これら 2 つのアプローチを橋渡しする新しいモジュール式 RL アーキテクチャを紹介します。
アクター批判的な RL エージェントの中心に微分可能な MPC を配置することで、提案されたシステムは、RL エージェントのエンドツーエンドのトレーニングの利点と探索的な動作を維持しながら、システムダイナミクスに基づいたアクションの短期予測と最適化を可能にします。
。
提案されたアプローチは、アクター MPC によって管理される短期的な決定と批評家ネットワークによって管理される長期的な決定という 2 つの異なる時間軸スケールを効果的に処理します。
これは、モデルベースの学習方法とエンドツーエンドの学習方法の利点を組み合わせた RL に有望な方向性をもたらします。
さまざまな高レベルのタスクを実行するクアッドコプター プラットフォーム上でのシミュレーションおよび現実世界の実験でこのアプローチを検証し、提案された手法が MPC の特性を維持しながら複雑な動作をエンドツーエンドで学習できることを示します。
要約(オリジナル)
Despite its success, Model Predictive Control (MPC) often requires intensive task-specific engineering and tuning. On the other hand, Reinforcement Learning (RL) architectures minimize this effort, but need extensive data collection and lack interpretability and safety. An open research question is how to combine the advantages of RL and MPC to exploit the best of both worlds. This paper introduces a novel modular RL architecture that bridges these two approaches. By placing a differentiable MPC in the heart of an actor-critic RL agent, the proposed system enables short-term predictions and optimization of actions based on system dynamics, while retaining the end-to-end training benefits and exploratory behavior of an RL agent. The proposed approach effectively handles two different time-horizon scales: short-term decisions managed by the actor MPC and long term ones managed by the critic network. This provides a promising direction for RL, which combines the advantages of model-based and end-to-end learning methods. We validate the approach in simulated and real-world experiments on a quadcopter platform performing different high-level tasks, and show that the proposed method can learn complex behaviours end-to-end while retaining the properties of an MPC.
arxiv情報
著者 | Angel Romero,Yunlong Song,Davide Scaramuzza |
発行日 | 2023-06-16 14:06:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google