要約
非線形モデル予測制御(NMPC)は、通常、オンライン最適化の計算負担を制限するために、短い有限視野に制限されています。
その結果、複雑な環境でのナビゲーションにNMPCを使用する場合、局所的な最小値を避けるために、グローバルな計画フレームワークが頻繁に必要です。
対照的に、補強学習(RL)は、現在のセンサー測定でのみ動作する場合でも、無限帯の予想コストを最小限に抑えるポリシーを生成し、局所的な最小値を回避できます。
ただし、これらの学んだポリシーは通常、特にトレーニング分布の外側では、パフォーマンス保証を提供することができません(衝突回避など)。
この論文では、RLを介してトレーニングされたおおよその知覚ベースの値関数を使用して、パフォーマンスと安全性の統計的保証を提供できるサンプリングベースの確率NMPCアルゴリズムである、おそらくほぼ正しいNMPC(PAC-NMPC)を補強します。
シミュレーションでは、私たちのアルゴリズムがPAC-NMPCの長期的な動作を改善しながら、平面車のダイナミクスとより複雑で高次元の固定翼航空機のダイナミクスの両方の安全性に関して他のアプローチを上回ることができることを実証します。
また、値関数がシミュレーションでトレーニングされている場合でも、アルゴリズムは、現在のセンサー情報のみを使用して、散らかった実世界環境で1/10スケールラリーカーを使用してハードウェアで統計的に安全なナビゲーションを正常に達成できることを実証しています。
要約(オリジナル)
Nonlinear model predictive control (NMPC) is typically restricted to short, finite horizons to limit the computational burden of online optimization. As a result, global planning frameworks are frequently necessary to avoid local minima when using NMPC for navigation in complex environments. By contrast, reinforcement learning (RL) can generate policies that minimize the expected cost over an infinite-horizon and can often avoid local minima, even when operating only on current sensor measurements. However, these learned policies are usually unable to provide performance guarantees (e.g., on collision avoidance), especially when outside of the training distribution. In this paper, we augment Probably Approximately Correct NMPC (PAC-NMPC), a sampling-based stochastic NMPC algorithm capable of providing statistical guarantees of performance and safety, with an approximate perception-based value function trained via RL. We demonstrate in simulation that our algorithm can improve the long-term behavior of PAC-NMPC while outperforming other approaches with regards to safety for both planar car dynamics and more complex, high-dimensional fixed-wing aerial vehicle dynamics. We also demonstrate that, even when our value function is trained in simulation, our algorithm can successfully achieve statistically safe navigation on hardware using a 1/10th scale rally car in cluttered real-world environments using only current sensor information.
arxiv情報
著者 | Adam Polevoy,Mark Gonzales,Marin Kobilarov,Joseph Moore |
発行日 | 2025-06-10 15:58:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google