要約
サンプリングベースのモデル予測制御 (MPC) は、その柔軟性と並列性のおかげで、多くの領域、特にモデルベースの強化学習において実用的かつ効果的なアプローチとなっています。
その魅力的な経験的パフォーマンスにもかかわらず、特に収束解析とハイパーパラメータ調整に関する理論的理解は依然として欠けています。
この論文では、広く使用されているサンプリングベースの MPC 手法であるモデル予測パス積分制御 (MPPI) の収束特性を特徴付けます。
最適化が時変 LQR システムをカバーする二次関数である場合、MPPI は少なくとも線形の収束率を達成することを示します。
次に、より一般的な非線形システムに拡張します。
私たちの理論分析は、サンプリング共分散を最適にスケジュールして収束率を最適化する、新しいサンプリングベースの MPC アルゴリズムである CoVariance-Optimal MPC (CoVo-MPC) に直接つながります。
経験的に、CoVo-MPC は、シミュレーションと現実世界のクワローター アジャイル制御タスクの両方で、標準 MPPI を 43 ~ 54% 大幅に上回っています。
ビデオと付録は \url{https://lecar-lab.github.io/CoVO-MPC/} でご覧いただけます。
要約(オリジナル)
Sampling-based Model Predictive Control (MPC) has been a practical and effective approach in many domains, notably model-based reinforcement learning, thanks to its flexibility and parallelizability. Despite its appealing empirical performance, the theoretical understanding, particularly in terms of convergence analysis and hyperparameter tuning, remains absent. In this paper, we characterize the convergence property of a widely used sampling-based MPC method, Model Predictive Path Integral Control (MPPI). We show that MPPI enjoys at least linear convergence rates when the optimization is quadratic, which covers time-varying LQR systems. We then extend to more general nonlinear systems. Our theoretical analysis directly leads to a novel sampling-based MPC algorithm, CoVariance-Optimal MPC (CoVo-MPC) that optimally schedules the sampling covariance to optimize the convergence rate. Empirically, CoVo-MPC significantly outperforms standard MPPI by 43-54% in both simulations and real-world quadrotor agile control tasks. Videos and Appendices are available at \url{https://lecar-lab.github.io/CoVO-MPC/}.
arxiv情報
著者 | Zeji Yi,Chaoyi Pan,Guanqi He,Guannan Qu,Guanya Shi |
発行日 | 2024-01-14 21:10:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google