要約
Large Vision-Language Model (LVLM) は最近大きな注目を集めており、その一般知識を活用して自動運転モデルの解釈可能性と堅牢性を向上させることを目的とした多くの取り組みが行われています。
ただし、LVLM は通常、大規模な汎用データセットに依存しており、専門的かつ安全な運転に必要な専門知識が不足しています。
既存の視覚言語による運転データセットは、主に現場の理解と意思決定に焦点を当てており、安全運転に直接関係する重要な側面である交通ルールや運転スキルに関する明確なガイダンスは提供していません。
このギャップを埋めるために、運転ハンドブック、理論試験データ、模擬路上試験データなど、さまざまな国から収集された 100 万を超えるデータ項目を含む大規模なデータセットである IDKB を提案します。
運転免許証を取得するプロセスと同様に、IDKB には、理論から実践まで、運転に必要なほぼすべての形式的な知識が含まれています。
特に、IDKB を使用して 15 の LVLM に対して包括的なテストを実施し、自動運転の観点からの信頼性を評価し、広範な分析を提供しました。
また、人気のあるモデルを微調整し、顕著なパフォーマンスの向上を達成し、データセットの重要性をさらに検証しました。
プロジェクト ページは \url{https://4dvlab.github.io/project_page/idkb.html} にあります。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have recently garnered significant attention, with many efforts aimed at harnessing their general knowledge to enhance the interpretability and robustness of autonomous driving models. However, LVLMs typically rely on large, general-purpose datasets and lack the specialized expertise required for professional and safe driving. Existing vision-language driving datasets focus primarily on scene understanding and decision-making, without providing explicit guidance on traffic rules and driving skills, which are critical aspects directly related to driving safety. To bridge this gap, we propose IDKB, a large-scale dataset containing over one million data items collected from various countries, including driving handbooks, theory test data, and simulated road test data. Much like the process of obtaining a driver’s license, IDKB encompasses nearly all the explicit knowledge needed for driving from theory to practice. In particular, we conducted comprehensive tests on 15 LVLMs using IDKB to assess their reliability in the context of autonomous driving and provided extensive analysis. We also fine-tuned popular models, achieving notable performance improvements, which further validate the significance of our dataset. The project page can be found at: \url{https://4dvlab.github.io/project_page/idkb.html}
arxiv情報
著者 | Yuhang Lu,Yichen Yao,Jiadong Tu,Jiangnan Shao,Yuexin Ma,Xinge Zhu |
発行日 | 2024-09-04 17:52:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google