要約
過去10年間、自律走行は学界と産業界の両方で急速な発展を遂げてきた。しかし、その限られた解釈可能性は依然として重要な未解決の問題であり、自律走行車の商業化とさらなる発展を大きく妨げている。小型言語モデルを利用したこれまでのアプローチでは、柔軟性、汎化能力、ロバスト性に欠けるため、この問題に対処できなかった。近年、マルチモーダル大規模言語モデル(LLM)は、非テキストデータ(画像や動画など)をテキストで処理し、推論する能力を持つことから、研究コミュニティから大きな注目を集めている。本稿では、LLMを活用した解釈可能なエンドツーエンドの自律走行システムDriveGPT4を紹介する。DriveGPT4は、車両の行動を解釈し、それに対応する推論を提供することが可能であり、また、インタラクションを強化するために人間ユーザが投げかける多様な質問に答えることができる。さらに、DriveGPT4は車両の低レベル制御信号をエンドツーエンドで予測します。これらの機能は、自律走行用に特別に設計されたカスタマイズされた視覚指示チューニングデータセットに由来する。我々の知る限り、DriveGPT4は解釈可能なエンドツーエンドの自律走行に焦点を当てた最初の研究である。従来の手法や映像理解LLMと並んで複数のタスクで評価したところ、DriveGPT4は質的にも量的にも優れた性能を示しました。さらに、DriveGPT4は、より多くの未知のシナリオに対応するために、ゼロショット方式で一般化することができる。プロジェクトページは https://tonyxuqaq.github.io/projects/DriveGPT4/ 。
要約(オリジナル)
In the past decade, autonomous driving has experienced rapid development in both academia and industry. However, its limited interpretability remains a significant unsolved problem, severely hindering autonomous vehicle commercialization and further development. Previous approaches utilizing small language models have failed to address this issue due to their lack of flexibility, generalization ability, and robustness. Recently, multimodal large language models (LLMs) have gained considerable attention from the research community for their capability to process and reason non-text data (e.g., images and videos) by text. In this paper, we present DriveGPT4, an interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is capable of interpreting vehicle actions and providing corresponding reasoning, as well as answering diverse questions posed by human users for enhanced interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals in an end-to-end fashion. These capabilities stem from a customized visual instruction tuning dataset specifically designed for autonomous driving. To the best of our knowledge, DriveGPT4 is the first work focusing on interpretable end-to-end autonomous driving. When evaluated on multiple tasks alongside conventional methods and video understanding LLMs, DriveGPT4 demonstrates superior qualitative and quantitative performance. Additionally, DriveGPT4 can be generalized in a zero-shot fashion to accommodate more unseen scenarios. The project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ .
arxiv情報
著者 | Zhenhua Xu,Yujia Zhang,Enze Xie,Zhen Zhao,Yong Guo,Kenneth K. Y. Wong,Zhenguo Li,Hengshuang Zhao |
発行日 | 2023-10-02 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |