DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

要約

過去 10 年間、自動運転は学界と産業界の両方で急速な発展を遂げてきました。
しかし、その限られた解釈可能性は依然として重大な未解決の問題であり、自動運転車の商品化とさらなる開発を大きく妨げています。
小規模な言語モデルを利用したこれまでのアプローチでは、柔軟性、一般化能力、堅牢性に欠けるため、この問題に対処できませんでした。
最近、マルチモーダル大規模言語モデル (LLM) は、テキストによって非テキスト データ (画像やビデオなど) を処理および推論できる機能として、研究コミュニティから大きな注目を集めています。
本稿では、LLM を利用した解釈可能なエンドツーエンドの自動運転システムである DriveGPT4 を紹介します。
DriveGPT4 は、車両の動作を解釈し、対応する推論を提供するだけでなく、人間のユーザーが提起する多様な質問に答えて対話を強化することができます。
さらに、DriveGPT4 は車両の低レベル制御信号をエンドツーエンド方式で予測します。
これらの機能は、自動運転用に特別に設計された、カスタマイズされた視覚的指示調整データセットから生まれています。
私たちの知る限り、DriveGPT4 は、解釈可能なエンドツーエンドの自動運転に焦点を当てた最初の作品です。
従来の手法やビデオ理解 LLM と並行して複数のタスクで評価すると、DriveGPT4 は優れた定性的および定量的パフォーマンスを示します。
さらに、DriveGPT4 はゼロショット方式で一般化して、より多くの未知のシナリオに対応できます。
プロジェクト ページは https://tonyxuqaq.github.io/projects/DriveGPT4/ から入手できます。

要約(オリジナル)

In the past decade, autonomous driving has experienced rapid development in both academia and industry. However, its limited interpretability remains a significant unsolved problem, severely hindering autonomous vehicle commercialization and further development. Previous approaches utilizing small language models have failed to address this issue due to their lack of flexibility, generalization ability, and robustness. Recently, multimodal large language models (LLMs) have gained considerable attention from the research community for their capability to process and reason non-text data (e.g., images and videos) by text. In this paper, we present DriveGPT4, an interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is capable of interpreting vehicle actions and providing corresponding reasoning, as well as answering diverse questions posed by human users for enhanced interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals in an end-to-end fashion. These capabilities stem from a customized visual instruction tuning dataset specifically designed for autonomous driving. To the best of our knowledge, DriveGPT4 is the first work focusing on interpretable end-to-end autonomous driving. When evaluated on multiple tasks alongside conventional methods and video understanding LLMs, DriveGPT4 demonstrates superior qualitative and quantitative performance. Additionally, DriveGPT4 can be generalized in a zero-shot fashion to accommodate more unseen scenarios. The project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ .

arxiv情報

著者 Zhenhua Xu,Yujia Zhang,Enze Xie,Zhen Zhao,Yong Guo,Kwan-Yee. K. Wong,Zhenguo Li,Hengshuang Zhao
発行日 2023-10-08 13:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク