要約
非線形モデル予測制御 (NMPC) は通常、オンライン最適化の計算負荷を制限するために、短い有限期間に制限されます。
その結果、複雑な環境でのナビゲーションに NMPC を使用する場合、極小値を回避するためにグローバル プランニング フレームワークが必要になることがよくあります。
対照的に、強化学習 (RL) は、無限の範囲にわたって予想されるコストを最小限に抑えるポリシーを生成でき、現在のセンサー測定値のみで動作する場合でも、多くの場合、極小値を回避できます。
ただし、これらの学習されたポリシーは通常、特にトレーニング分布外の場合、パフォーマンスの保証 (衝突回避など) を提供できません。
この論文では、パフォーマンスと安全性の統計的保証を提供できるサンプリング ベースの確率的 NMPC アルゴリズムである、おそらくおおよそ正しい NMPC (PAC-NMPC) を、RL によって訓練された近似知覚依存値関数で強化します。
私たちは、平面的な自動車のダイナミクスと、より複雑な高次元の固定翼航空機のダイナミクスの両方の安全性に関して、他のアプローチよりも優れたパフォーマンスを示しながら、私たちのアルゴリズムが PAC-NMPC の長期的な挙動を改善できることをシミュレーションで実証します。
また、価値関数がシミュレーションでトレーニングされた場合でも、現在のセンサー情報のみを使用して、乱雑な現実世界の環境で 1/10 スケールのラリーカーを使用して、ハードウェア上で統計的に安全なナビゲーションをアルゴリズムが正常に達成できることも実証します。
要約(オリジナル)
Nonlinear model predictive control (NMPC) is typically restricted to short, finite horizons to limit the computational burden of online optimization. As a result, global planning frameworks are frequently necessary to avoid local minima when using NMPC for navigation in complex environments. By contrast, reinforcement learning (RL) can generate policies that minimize the expected cost over an infinite-horizon and can often avoid local minima, even when operating only on current sensor measurements. However, these learned policies are usually unable to provide performance guarantees (e.g., on collision avoidance), especially when outside of the training distribution. In this paper, we augment Probably Approximately Correct NMPC (PAC-NMPC), a sampling-based stochastic NMPC algorithm capable of providing statistical guarantees of performance and safety, with an approximate perception-dependent value function trained via RL. We demonstrate in simulation that our algorithm can improve the long-term behavior of PAC-NMPC while outperforming other approaches with regards to safety for both planar car dynamics and more complex, high-dimensional fixed-wing aerial vehicle dynamics. We also demonstrate that, even when our value function is trained in simulation, our algorithm can successfully achieve statistically safe navigation on hardware using a 1/10th scale rally car in cluttered real-world environments using only current sensor information.
arxiv情報
著者 | Adam Polevoy,Mark Gonzales,Marin Kobilarov,Joseph Moore |
発行日 | 2024-11-06 14:46:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google