Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

要約

大型ビジョン言語モデル (VLM) は、高度な自動運転車の動作に不可欠な複雑な推論タスクにおける高度な機能により、自動運転分野での関心が高まっています。
自律システムの研究は、その可能性にもかかわらず、運転時の意思決定プロセスを説明する注釈付きの推論チェーンを備えたデータセットの欠如によって妨げられています。
このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を促進することを目的とした、60 万を超えるビデオとテキストのペアを含むベンチマーク データセットである Reason2Drive を紹介します。
私たちは自動運転プロセスを知覚、予測、推論ステップの連続的な組み合わせとして明確に特徴付けており、質問と回答のペアは、nuScenes、Waymo、ONCE を含むさまざまなオープンソースの屋外運転データセットから自動的に収集されます。
さらに、自律システムにおけるチェーンベースの推論パフォーマンスを評価するための新しい集計評価メトリクスを導入し、BLEU や CIDEr などの既存のメトリクスの意味論的な曖昧さに対処します。
提案されたベンチマークに基づいて、さまざまな既存の VLM を評価する実験を実施し、その推論機能についての洞察を明らかにします。
さらに、VLM が特徴抽出と予測の両方でオブジェクトレベルの知覚要素を活用できるようにする効率的なアプローチを開発し、推論の精度をさらに向上させます。
コードとデータセットはリリースされます。

要約(オリジナル)

Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex reasoning tasks essential for highly autonomous vehicle behavior. Despite their potential, research in autonomous systems is hindered by the lack of datasets with annotated reasoning chains that explain the decision-making processes in driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with over 600K video-text pairs, aimed at facilitating the study of interpretable reasoning in complex driving environments. We distinctly characterize the autonomous driving process as a sequential combination of perception, prediction, and reasoning steps, and the question-answer pairs are automatically collected from a diverse range of open-source outdoor driving datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel aggregated evaluation metric to assess chain-based reasoning performance in autonomous systems, addressing the semantic ambiguities of existing metrics such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments to assess various existing VLMs, revealing insights into their reasoning capabilities. Additionally, we develop an efficient approach to empower VLMs to leverage object-level perceptual elements in both feature extraction and prediction, further enhancing their reasoning accuracy. The code and dataset will be released.

arxiv情報

著者 Ming Nie,Renyuan Peng,Chunwei Wang,Xinyue Cai,Jianhua Han,Hang Xu,Li Zhang
発行日 2023-12-06 18:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク