要約
本稿では、モデル予測経路積分制御(MPPI)に基づく新しい確率的最適制御(SOC)手法、Stein Variational Guided MPPI(SVG-MPPI)を提案する。MPPIは、閉じた形で、すなわち反復的な解の更新なしに、ガウス近似された最適行動分布を求めることができるが、最適分布のマルチモーダル性に苦戦する。これはガウス分布の代表性が低いためである。この限界を克服するために、我々の手法は、最適分布のターゲットモードを特定し、それに適合するように解を収束させることを目的とする。提案手法では、ターゲットモードを修正Stein Variational Gradient Descent (SVGD) 法を用いて大まかに推定し、MPPIアルゴリズムに組み込むことで、ターゲットモードのみをカバーする閉形式の「モード探索」解を求め、MPPIの高速収束特性を維持する。我々のシミュレーションと実世界での実験結果は、SVG-MPPIが、経路追跡と障害物回避能力において、オリジナルのMPPIと他の最先端のサンプリングベースのSOCアルゴリズムの両方を凌駕することを示している。ソースコード: https://github.com/kohonda/proj-svg_mppi
要約(オリジナル)
This paper presents a novel Stochastic Optimal Control (SOC) method based on Model Predictive Path Integral control (MPPI), named Stein Variational Guided MPPI (SVG-MPPI), designed to handle rapidly shifting multimodal optimal action distributions. While MPPI can find a Gaussian-approximated optimal action distribution in closed form, i.e., without iterative solution updates, it struggles with the multimodality of the optimal distributions. This is due to the less representative nature of the Gaussian. To overcome this limitation, our method aims to identify a target mode of the optimal distribution and guide the solution to converge to fit it. In the proposed method, the target mode is roughly estimated using a modified Stein Variational Gradient Descent (SVGD) method and embedded into the MPPI algorithm to find a closed-form ‘mode-seeking’ solution that covers only the target mode, thus preserving the fast convergence property of MPPI. Our simulation and real-world experimental results demonstrate that SVG-MPPI outperforms both the original MPPI and other state-of-the-art sampling-based SOC algorithms in terms of path-tracking and obstacle-avoidance capabilities. Source code: https://github.com/kohonda/proj-svg_mppi
arxiv情報
著者 | Kohei Honda,Naoki Akai,Kosuke Suzuki,Mizuho Aoki,Hirotaka Hosogaya,Hiroyuki Okuda,Tatsuya Suzuki |
発行日 | 2024-03-01 02:18:35+00:00 |
arxivサイト | arxiv_id(pdf) |