DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

要約

大規模言語モデル (LLM) は、インテリジェント エージェントに新しい可能性をもたらし、人間のような思考と認知能力を与えます。
この研究では、自動運転 (AD) における大規模言語モデル (LLM) の可能性を掘り下げます。
現実的なシミュレーターで閉ループ自動運転を実行できる LLM ベースの AD フレームワークである DriveMLM を紹介します。
この目的を達成するために、(1) 既製の動作計画モジュールに従って決定状態を標準化することで、言語決定と車両制御コマンドの間のギャップを埋めます。
(2) マルチモーダル LLM (MLLM) を使用して、モジュール AD システムの行動計画モジュールをモデル化します。このモジュールは、運転ルール、ユーザー コマンド、およびさまざまなセンサー (例: カメラ、ライダー) からの入力を入力として使用し、運転を行います。
決定を下し、説明を提供する。
このモデルは、Apollo などの既存の AD システムにプラグアンドプレイして閉ループ駆動を行うことができます。
(3) モデルのトレーニングと評価のための決定状態と対応する説明アノテーションを含むデータセットを収集するための効果的なデータ エンジンを設計します。
私たちは広範な実験を行った結果、CARLA Town05 Long でモデルが 76.1 の運転スコアを達成し、同じ設定下で Apollo のベースラインを 4.7 ポイント上回り、モデルの有効性を実証しました。
この研究が LLM による自動運転のベースラインとして機能することを願っています。
コードとモデルは https://github.com/OpenGVLab/DriveMLM でリリースされます。

要約(オリジナル)

Large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models (LLMs) in autonomous driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform close-loop autonomous driving in realistic simulators. To this end, (1) we bridge the gap between the language decisions and the vehicle control commands by standardizing the decision states according to the off-the-shelf motion planning module. (2) We employ a multi-modal LLM (MLLM) to model the behavior planning module of a module AD system, which uses driving rules, user commands, and inputs from various sensors (e.g., camera, lidar) as input and makes driving decisions and provide explanations; This model can plug-and-play in existing AD systems such as Apollo for close-loop driving. (3) We design an effective data engine to collect a dataset that includes decision state and corresponding explanation annotation for model training and evaluation. We conduct extensive experiments and show that our model achieves 76.1 driving score on the CARLA Town05 Long, and surpasses the Apollo baseline by 4.7 points under the same settings, demonstrating the effectiveness of our model. We hope this work can serve as a baseline for autonomous driving with LLMs. Code and models shall be released at https://github.com/OpenGVLab/DriveMLM.

arxiv情報

著者 Wenhai Wang,Jiangwei Xie,ChuanYang Hu,Haoming Zou,Jianan Fan,Wenwen Tong,Yang Wen,Silei Wu,Hanming Deng,Zhiqi Li,Hao Tian,Lewei Lu,Xizhou Zhu,Xiaogang Wang,Yu Qiao,Jifeng Dai
発行日 2023-12-14 18:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク