Model Predictive Optimized Path Integral Strategies

要約

モデル予測パス積分制御 (MPPI) の導出を一般化して、制御シーケンス内の制御全体で単一の共同分布を可能にします。
この再編成により、任意のシステム ダイナミクスやコスト関数の操作などの MPPI の利点を維持しながら、元の重要度サンプリング ステップに適応重要度サンプリング (AIS) アルゴリズムを実装できます。
各制御ステップで AIS を統合することによって提案分布を最適化することの利点は、トラック周辺の複数の車両の制御を含むシミュレートされた環境で実証されています。
新しいアルゴリズムは MPPI よりもサンプル効率が高く、より少ないサンプルでより優れたパフォーマンスを実現します。
このパフォーマンスの格差は、アクション スペースの次元が大きくなるにつれて大きくなります。
シミュレーションの結果は、新しいアルゴリズムをいつでもアルゴリズムとして使用できることを示唆しており、大量のサンプル セットに依存するのではなく、各反復で制御の価値を高めます。

要約(オリジナル)

We generalize the derivation of model predictive path integral control (MPPI) to allow for a single joint distribution across controls in the control sequence. This reformation allows for the implementation of adaptive importance sampling (AIS) algorithms into the original importance sampling step while still maintaining the benefits of MPPI such as working with arbitrary system dynamics and cost functions. The benefit of optimizing the proposal distribution by integrating AIS at each control step is demonstrated in simulated environments including controlling multiple cars around a track. The new algorithm is more sample efficient than MPPI, achieving better performance with fewer samples. This performance disparity grows as the dimension of the action space increases. Results from simulations suggest the new algorithm can be used as an anytime algorithm, increasing the value of control at each iteration versus relying on a large set of samples.

arxiv情報

著者 Dylan M. Asmar,Ransalu Senanayake,Shawn Manuel,Mykel J. Kochenderfer
発行日 2023-03-01 06:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, I.2.9 パーマリンク