要約
この論文では、トランスを使用して平均制御シーケンスを初期化することにより、モデル予測パス積分 (MPPI) 制御を改善する新しいアプローチを紹介します。
従来の MPPI メソッドは、初期ロールアウトが最適ではないため、サンプル効率と計算コストに悩まされることがよくあります。
我々は、過去の制御データに基づいてトレーニングされたトランスフォーマーを使用して、情報に基づいた初期平均制御シーケンスを生成する TransformerMPPI を提案します。
TransformerMPPI は、トランスフォーマーのアテンション メカニズムとサンプリング ベースの制御の長所を組み合わせており、計算パフォーマンスとサンプル効率の向上につながります。
最適な制御シーケンスで長期パターンをキャプチャするトランスフォーマーの機能により、TransformerMPPI はより情報に基づいた制御シーケンスから開始できるため、必要なサンプル数が削減され、最適な制御シーケンスへの収束が加速されます。
私たちは、2D 環境での衝突の回避や、静的および動的障害物が存在する中での自律レースなど、さまざまな制御タスクに関する手法を評価します。
数値シミュレーションにより、静的障害物および動的障害物が存在する場合でも、全体の平均コスト、サンプル効率、および計算速度の点で、TransformerMPPI が従来の MPPI アルゴリズムよりも常に優れたパフォーマンスを発揮することが実証されています。
要約(オリジナル)
This paper presents a novel approach to improve the Model Predictive Path Integral (MPPI) control by using a transformer to initialize the mean control sequence. Traditional MPPI methods often struggle with sample efficiency and computational costs due to suboptimal initial rollouts. We propose TransformerMPPI, which uses a transformer trained on historical control data to generate informed initial mean control sequences. TransformerMPPI combines the strengths of the attention mechanism in transformers and sampling-based control, leading to improved computational performance and sample efficiency. The ability of the transformer to capture long-horizon patterns in optimal control sequences allows TransformerMPPI to start from a more informed control sequence, reducing the number of samples required, and accelerating convergence to optimal control sequence. We evaluate our method on various control tasks, including avoidance of collisions in a 2D environment and autonomous racing in the presence of static and dynamic obstacles. Numerical simulations demonstrate that TransformerMPPI consistently outperforms traditional MPPI algorithms in terms of overall average cost, sample efficiency, and computational speed in the presence of static and dynamic obstacles.
arxiv情報
著者 | Shrenik Zinage,Vrushabh Zinage,Efstathios Bakolas |
発行日 | 2024-12-22 18:15:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google