World knowledge-enhanced Reasoning Using Instruction-guided Interactor in Autonomous Driving

要約

広範な世界知識を備えたマルチモーダル大規模言語モデル (MLLM) は、特に知覚可能な領域内での推論タスクにおいて自動運転を活性化しました。
しかし、知覚が制限された領域(動的または静的オクルージョン領域)に直面した場合、MLLM は推論のために知覚能力を世界の知識と効果的に統合するのに苦労します。
これらの知覚が制限された領域では、特に交通弱者にとって重要な安全情報が隠蔽される可能性があります。
この論文では、知覚能力と世界知識の統合を強化することで、知覚が制限された状況下での自動運転性能を向上させることを目的としたフレームワークを提案します。
具体的には、モダリティのギャップを橋渡しし、入力シーケンスの長さを大幅に短縮して、マルチビュービデオ入力に効果的に適応できるようにする、プラグアンドプレイの命令ガイド型インタラクションモジュールを提案します。
さらに、世界の知識と運転関連タスクをより適切に統合するために、200 万の自然言語 QA ペア、170 万のグラウンディング タスク データを含む大規模なマルチモーダル データセットを収集し、洗練しました。
モデルによる世界の知識の活用を評価するために、20 万の QA ペアで構成されるオブジェクト レベルのリスク評価データセットを導入します。このデータセットでは、質問の解決には世界の知識を活用する多段階の推論が必要です。
広範な実験により、私たちが提案した方法の有効性が検証されています。

要約(オリジナル)

The Multi-modal Large Language Models (MLLMs) with extensive world knowledge have revitalized autonomous driving, particularly in reasoning tasks within perceivable regions. However, when faced with perception-limited areas (dynamic or static occlusion regions), MLLMs struggle to effectively integrate perception ability with world knowledge for reasoning. These perception-limited regions can conceal crucial safety information, especially for vulnerable road users. In this paper, we propose a framework, which aims to improve autonomous driving performance under perceptionlimited conditions by enhancing the integration of perception capabilities and world knowledge. Specifically, we propose a plug-and-play instruction-guided interaction module that bridges modality gaps and significantly reduces the input sequence length, allowing it to adapt effectively to multi-view video inputs. Furthermore, to better integrate world knowledge with driving-related tasks, we have collected and refined a large-scale multi-modal dataset that includes 2 million natural language QA pairs, 1.7 million grounding task data. To evaluate the model’s utilization of world knowledge, we introduce an object-level risk assessment dataset comprising 200K QA pairs, where the questions necessitate multi-step reasoning leveraging world knowledge for resolution. Extensive experiments validate the effectiveness of our proposed method.

arxiv情報

著者 Mingliang Zhai,Cheng Li,Zengyuan Guo,Ningrui Yang,Xiameng Qin,Sanyuan Zhao,Junyu Han,Ji Tao,Yuwei Wu,Yunde Jia
発行日 2025-01-02 04:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク