VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

要約

ビジョン言語モデル(VLM)の創発的な推論能力と、自律走行システムの理解可能性を向上させる可能性に動機づけられ、本稿では、モデルベース制御がVLMの意思決定をどのように強化できるかを評価するために、モデル予測制御(MPC)とVLMを組み合わせたVLM-MPCと呼ばれる閉ループ自律走行制御器を紹介する。提案するVLM-MPCは2つの非同期コンポーネントから構成される:上位層のVLMは、フロントカメラの画像、自車両の状態、交通環境の状態、および参照メモリに基づいて、下位層の制御のための走行パラメータ(例えば、希望速度、希望車間距離)を生成する。下位層のMPCは、これらのパラメータを用いてリアルタイムで車両を制御し、エンジンの遅れを考慮し、システム全体に状態フィードバックを提供する。nuScenesデータセットに基づく実験により、様々な環境(夜間、雨、交差点など)において提案するVLM-MPCの有効性を検証した。その結果、VLM-MPCは、VLMベースの制御が衝突の危険性をもたらすシナリオがあるのとは対照的に、一貫してPost Encroachment Time (PET)を安全閾値以上に維持することが実証された。さらに、VLM-MPCは、実際の軌道やVLMベースの制御と比較して、滑らかさを向上させました。異なる環境設定下での挙動を比較することで、VLM-MPCが環境を理解し、合理的な推論を行う能力があることを強調している。さらに、参照記憶と環境エンコーダの2つの主要コンポーネントが、アブレーションテストを通じて応答の安定性に寄与していることを検証する。

要約(オリジナル)

Motivated by the emergent reasoning capabilities of Vision Language Models (VLMs) and their potential to improve the comprehensibility of autonomous driving systems, this paper introduces a closed-loop autonomous driving controller called VLM-MPC, which combines the Model Predictive Controller (MPC) with VLM to evaluate how model-based control could enhance VLM decision-making. The proposed VLM-MPC is structured into two asynchronous components: The upper layer VLM generates driving parameters (e.g., desired speed, desired headway) for lower-level control based on front camera images, ego vehicle state, traffic environment conditions, and reference memory; The lower-level MPC controls the vehicle in real-time using these parameters, considering engine lag and providing state feedback to the entire system. Experiments based on the nuScenes dataset validated the effectiveness of the proposed VLM-MPC across various environments (e.g., night, rain, and intersections). The results demonstrate that the VLM-MPC consistently maintains Post Encroachment Time (PET) above safe thresholds, in contrast to some scenarios where the VLM-based control posed collision risks. Additionally, the VLM-MPC enhances smoothness compared to the real-world trajectories and VLM-based control. By comparing behaviors under different environmental settings, we highlight the VLM-MPC’s capability to understand the environment and make reasoned inferences. Moreover, we validate the contributions of two key components, the reference memory and the environment encoder, to the stability of responses through ablation tests.

arxiv情報

著者 Keke Long,Haotian Shi,Jiaxi Liu,Xiaopeng Li
発行日 2024-10-03 00:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク