DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

要約

都市環境における自動運転の主なハードルは、困難な道路状況や繊細な人間の行動など、複雑でロングテールのシナリオを理解することです。
シーンの理解と計画機能を強化するための視覚言語モデル (VLM) を活用した自動運転システムである DriveVLM を紹介します。
DriveVLM は、シーン記述、シーン分析、階層計画のための思考連鎖 (CoT) モジュールの独自の組み合わせを統合します。
さらに、空間推論と大量の計算要件における VLM の限界を認識し、DriveVLM の長所と従来の自動運転パイプラインを相乗させるハイブリッド システムである DriveVLM-Dual を提案します。
DriveVLM-Dual は、堅牢な空間理解とリアルタイムの推論速度を実現します。
nuScenes データセットと SUP-AD データセットの両方に対する広範な実験により、DriveVLM の有効性と DriveVLM-Dual の強化されたパフォーマンスが実証され、複雑で予測不可能な運転条件において既存の方法を上回ります。

要約(オリジナル)

A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of chain-of-thought (CoT) modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. DriveVLM-Dual achieves robust spatial understanding and real-time inference speed. Extensive experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the effectiveness of DriveVLM and the enhanced performance of DriveVLM-Dual, surpassing existing methods in complex and unpredictable driving conditions.

arxiv情報

著者 Xiaoyu Tian,Junru Gu,Bailin Li,Yicheng Liu,Chenxu Hu,Yang Wang,Kun Zhan,Peng Jia,Xianpeng Lang,Hang Zhao
発行日 2024-03-31 17:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク