要約
マルチモーダル大規模言語モデル (MLLM) は、画像やビデオなどの非テキスト データの処理と推論に習熟しているため、研究コミュニティ内で注目を集めている分野として浮上しています。
この研究は、LLM に基づく新しい解釈可能なエンドツーエンド自動運転システムである DriveGPT4 を導入することにより、MLLM の適用を自動運転の領域に拡張することを目指しています。
マルチフレームのビデオ入力とテキストのクエリを処理できる DriveGPT4 は、車両の動作の解釈を容易にし、適切な推論を提供し、ユーザーから寄せられるさまざまな質問に効果的に対処します。
さらに、DriveGPT4 は、低レベルの車両制御信号をエンドツーエンド方式で予測します。
これらの高度な機能は、混合微調整トレーニング戦略と組み合わせて、自動運転アプリケーション向けに特別に調整された特注の視覚指示調整データセットを利用することによって実現されます。
DriveGPT4 は、解釈可能なエンドツーエンドの自動運転ソリューションの開発に LLM を活用する先駆的な取り組みを表しています。
BDD-X データセットに対して行われた評価では、DriveGPT4 の優れた定性的および定量的パフォーマンスが示されています。
さらに、ドメイン固有のデータを微調整することにより、DriveGPT4 は、GPT4-V と比較した場合、自動運転の接地に関してほぼ同等、またはさらに改善された結果を得ることができます。
コードとデータセットは一般に公開されます。
要約(オリジナル)
Multimodal large language models (MLLMs) have emerged as a prominent area of interest within the research community, given their proficiency in handling and reasoning with non-textual data, including images and videos. This study seeks to extend the application of MLLMs to the realm of autonomous driving by introducing DriveGPT4, a novel interpretable end-to-end autonomous driving system based on LLMs. Capable of processing multi-frame video inputs and textual queries, DriveGPT4 facilitates the interpretation of vehicle actions, offers pertinent reasoning, and effectively addresses a diverse range of questions posed by users. Furthermore, DriveGPT4 predicts low-level vehicle control signals in an end-to-end fashion. These advanced capabilities are achieved through the utilization of a bespoke visual instruction tuning dataset, specifically tailored for autonomous driving applications, in conjunction with a mix-finetuning training strategy. DriveGPT4 represents the pioneering effort to leverage LLMs for the development of an interpretable end-to-end autonomous driving solution. Evaluations conducted on the BDD-X dataset showcase the superior qualitative and quantitative performance of DriveGPT4. Additionally, the fine-tuning of domain-specific data enables DriveGPT4 to yield close or even improved results in terms of autonomous driving grounding when contrasted with GPT4-V. The code and dataset will be publicly available.
arxiv情報
著者 | Zhenhua Xu,Yujia Zhang,Enze Xie,Zhen Zhao,Yong Guo,Kwan-Yee. K. Wong,Zhenguo Li,Hengshuang Zhao |
発行日 | 2024-03-14 17:05:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google