X-Driver: Explainable Autonomous Driving with Vision-Language Models

要約

エンド・ツー・エンドの自律走行は著しく進歩しており、従来のパイプラインよりもシステムがシンプルで、オープンループとクローズドループの両方で強力な走行性能を発揮するなどの利点がある。しかし、既存のフレームワークは、クローズドループ評価での成功率が低いという問題を抱えており、実世界での展開における限界が浮き彫りになっている。本論文では、閉ループ自律走行用に設計された統合マルチモーダル大規模言語モデル(MLLMs)フレームワークであるX-Driverを紹介する。我々は、Bench2Drive[6]を含むCARLAシミュレーション環境の公開ベンチマークを使用して、複数の自律走行タスクにわたってX-Driverを検証する。我々の実験結果は、運転判断の解釈可能性を向上させながら、現在の最先端(SOTA)を上回る優れた閉ループ性能を実証している。これらの結果は、エンドツーエンドの運転における構造化推論の重要性を強調し、X-Driverをクローズドループ自律運転における将来の研究のための強力なベースラインとして確立する。

要約(オリジナル)

End-to-end autonomous driving has advanced significantly, offering benefits such as system simplicity and stronger driving performance in both open-loop and closed-loop settings than conventional pipelines. However, existing frameworks still suffer from low success rates in closed-loop evaluations, highlighting their limitations in real-world deployment. In this paper, we introduce X-Driver, a unified multi-modal large language models(MLLMs) framework designed for closed-loop autonomous driving, leveraging Chain-of-Thought(CoT) and autoregressive modeling to enhance perception and decision-making. We validate X-Driver across multiple autonomous driving tasks using public benchmarks in CARLA simulation environment, including Bench2Drive[6]. Our experimental results demonstrate superior closed-loop performance, surpassing the current state-of-the-art(SOTA) while improving the interpretability of driving decisions. These findings underscore the importance of structured reasoning in end-to-end driving and establish X-Driver as a strong baseline for future research in closed-loop autonomous driving.

arxiv情報

著者 Wei Liu,Jiyuan Zhang,Binxiong Zheng,Yufeng Hu,Yingzhan Lin,Zengfeng Zeng
発行日 2025-06-03 11:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.ET, cs.RO パーマリンク