AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

要約

自律的な運転では、フリーフォームの応答には複雑なメトリックまたは主観的な人間の判断のいずれかが必要であるため、自律的な回答はしばしば信頼できない評価に苦しむことがよくあります。
この課題に対処するために、既存の駆動QAデータセット(Drivelm、Nuscenes-QA、およびLingoqaを含む)を構造化された多肢選択質問(MCQ)形式に変換する自動パイプラインであるAutoDrive-QAを導入します。
このベンチマークは、知覚、予測、および計画タスクを体系的に評価し、標準化された客観的な評価フレームワークを提供します。
AutoDrive-QAは、自律運転シナリオで一般的に見られるドメイン固有のエラーパターンに基づいて、大規模な言語モデル(LLM)を活用するために、大規模な言語モデル(LLM)を活用する自動化されたパイプラインを採用しています。
一般的な機能と一般化パフォーマンスの両方を評価するために、3つのパブリックデータセットでベンチマークをテストし、目に見えないデータセットでゼロショット実験を実施します。
ゼロショットの評価により、GPT-4Vは69.57%の精度でリードしていることが明らかになりました – 認識で74.94%、予測で65.33%、計画で68.45% – すべてのモデルが認識に優れている一方で、彼らは予測に苦労していることを示しています。
その結果、AutoDrive-QAは、さまざまな自律運転データセットにおけるさまざまな視覚言語モデルを統合および評価するための厳格で公平な標準を確立し、この分野での一般化を改善します。
AutoDrive-QA GitHubリポジトリのすべてのコードをリリースします。

要約(オリジナル)

In autonomous driving, open-ended question answering often suffers from unreliable evaluations because freeform responses require either complex metrics or subjective human judgment. To address this challenge, we introduce AutoDrive-QA, an automatic pipeline that converts existing driving QA datasets (including DriveLM, NuScenes-QA, and LingoQA) into a structured multiple-choice question (MCQ) format. This benchmark systematically assesses perception, prediction, and planning tasks, providing a standardized and objective evaluation framework. AutoDrive-QA employs an automated pipeline that leverages large language models (LLMs) to generate high-quality, contextually relevant distractors based on domain-specific error patterns commonly found in autonomous driving scenarios. To evaluate both general capabilities and generalization performance, we test the benchmark on three public datasets and conduct zero-shot experiments on an unseen dataset. The zero-shot evaluations reveal that GPT-4V leads with 69.57% accuracy — achieving 74.94% in Perception, 65.33% in Prediction, and 68.45% in Planning — demonstrating that while all models excel in Perception, they struggle in Prediction. Consequently, AutoDrive-QA establishes a rigorous, unbiased standard for integrating and evaluating different vision-language models across various autonomous driving datasets, thereby improving generalization in this field. We release all the codes in the AutoDrive-QA GitHub Repository.

arxiv情報

著者 Boshra Khalili,Andrew W. Smyth
発行日 2025-03-20 01:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク