DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

要約

大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的質問応答(VQA)タスクで強力なパフォーマンスを実証していますが、特定の課題には、正確な回答に到達するために複雑なマルチステップの推論が必要です。
特に挑戦的なタスクの1つは、自律的な運転であり、決定を下す前に徹底的な認知処理を必要とします。
このドメインでは、効果的な認識、予測、および計画のために、視覚的な手がかりの連続的かつ解釈的な理解が不可欠です。
それにもかかわらず、一般的なVQAベンチマークは、多くの場合、正確な応答の生成を可能にする推論プロセスを見落としながら、最終回答の正確性に焦点を当てています。
さらに、既存の方法には、現実的な運転シナリオで段階的な推論を評価するための包括的なフレームワークがありません。
このギャップに対処するために、自律運転の段階的な視覚的推論を進めるために特別に設計された新しいデータセットとベンチマークであるDrivelmm-O1を提案します。
当社のベンチマークは、トレーニングセットの18Kを超えるVQAの例と、テストセットで4K以上の特徴を特徴としており、それぞれが自律運転シナリオの論理的推論を確保するための段階的な推論で豊富な知覚、予測、および計画に関する多様な質問をカバーしています。
さらに、推論データセットで微調整された大規模なマルチモーダルモデルを紹介し、複雑な運転シナリオで堅牢なパフォーマンスを実証します。
さらに、提案されたデータセットにさまざまなオープンソースとクローズドソースのメソッドをベンチマークし、自律運転タスクの推論機能を体系的に比較します。
私たちのモデルは、以前のベストオープンソースモデルでの推論スコアの3.62%の改善とともに、最終的な回答の精度で +7.49%の増加を達成します。
フレームワーク、データセット、およびモデルは、https://github.com/ayesha-ishaq/drivelmm-o1で入手できます。

要約(オリジナル)

While large multimodal models (LMMs) have demonstrated strong performance across various Visual Question Answering (VQA) tasks, certain challenges require complex multi-step reasoning to reach accurate answers. One particularly challenging task is autonomous driving, which demands thorough cognitive processing before decisions can be made. In this domain, a sequential and interpretive understanding of visual cues is essential for effective perception, prediction, and planning. Nevertheless, common VQA benchmarks often focus on the accuracy of the final answer while overlooking the reasoning process that enables the generation of accurate responses. Moreover, existing methods lack a comprehensive framework for evaluating step-by-step reasoning in realistic driving scenarios. To address this gap, we propose DriveLMM-o1, a new dataset and benchmark specifically designed to advance step-wise visual reasoning for autonomous driving. Our benchmark features over 18k VQA examples in the training set and more than 4k in the test set, covering diverse questions on perception, prediction, and planning, each enriched with step-by-step reasoning to ensure logical inference in autonomous driving scenarios. We further introduce a large multimodal model that is fine-tuned on our reasoning dataset, demonstrating robust performance in complex driving scenarios. In addition, we benchmark various open-source and closed-source methods on our proposed dataset, systematically comparing their reasoning capabilities for autonomous driving tasks. Our model achieves a +7.49% gain in final answer accuracy, along with a 3.62% improvement in reasoning score over the previous best open-source model. Our framework, dataset, and model are available at https://github.com/ayesha-ishaq/DriveLMM-o1.

arxiv情報

著者 Ayesha Ishaq,Jean Lahoud,Ketan More,Omkar Thawakar,Ritesh Thawkar,Dinura Dissanayake,Noor Ahsan,Yuhao Li,Fahad Shahbaz Khan,Hisham Cholakkal,Ivan Laptev,Rao Muhammad Anwer,Salman Khan
発行日 2025-03-13 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク