VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

要約

ビジョン言語モデル (VLM) の新たな推論機能と、自動運転システムの理解を向上させる可能性を動機として、この論文では、高レベルの意思決定のために VLM を組み合わせた、VLM-MPC と呼ばれる閉ループ自動運転コントローラーを紹介します。
低レベルの車両制御用のモデル予測コントローラー (MPC) を作成します。
提案された VLM-MPC システムは、構造的に 2 つの非同期コンポーネント、つまり上位レベルの VLM と下位レベルの MPC に分割されます。
上位層の VLM は、フロントカメラ画像、自車両の状態、交通環境条件、参照メモリに基づいて、下位レベルの制御のための運転パラメータを生成します。
下位レベルの MPC は、エンジンの遅れを考慮し、システム全体に状態のフィードバックを提供しながら、これらのパラメーターを使用して車両をリアルタイムで制御します。
nuScenes データセットに基づく実験により、さまざまなシナリオ (夜間、雨、交差点など) にわたって提案された VLM-MPC システムの有効性が検証されました。
結果は、VLM-MPC システムが安全性と運転快適性の点でベースライン モデルを常に上回っていることを示しました。
さまざまな気象条件やシナリオでの動作を比較することで、環境を理解し、合理的な推論を行う VLM の能力を実証しました。

要約(オリジナル)

Motivated by the emergent reasoning capabilities of Vision Language Models (VLMs) and its potential to improve the comprehensibility of autonomous driving systems, this paper introduces a closed-loop autonomous driving controller called VLM-MPC, which combines a VLM for high-level decision-making and a Model Predictive Controller (MPC) for low-level vehicle control. The proposed VLM-MPC system is structurally divided into two asynchronous components: an upper-level VLM and a lower-level MPC. The upper layer VLM generates driving parameters for lower-level control based on front camera images, ego vehicle state, traffic environment conditions, and reference memory. The lower-level MPC controls the vehicle in real-time using these parameters, considering engine lag and providing state feedback to the entire system. Experiments based on the nuScenes dataset validated the effectiveness of the proposed VLM-MPC system across various scenarios (e.g., night, rain, intersections). Results showed that the VLM-MPC system consistently outperformed baseline models in terms of safety and driving comfort. By comparing behaviors under different weather conditions and scenarios, we demonstrated the VLM’s ability to understand the environment and make reasonable inferences.

arxiv情報

著者 Keke Long,Haotian Shi,Jiaxi Liu,Xiaopeng Li
発行日 2024-08-09 02:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク