要約
TUMTraffic-VideoQAは、複雑な道路交通シナリオにおける時空間ビデオ理解のために設計された新しいデータセットとベンチマークである。このデータセットは1,000本のビデオで構成され、85,000組の複数選択QA、2,300個のオブジェクトキャプション、5,700個のオブジェクトグラウンディングアノテーションを含み、悪天候や交通異常などの多様な実環境を包含する。タプルベースの時空間オブジェクト表現を組み込むことで、TUMTraffic-VideoQAは、3つの重要なタスク(複数選択肢ビデオ質問回答、参照オブジェクトキャプション、時空間オブジェクトグラウンディング)を、まとまりのある評価フレームワークで統合する。さらに、TUMTraffic-Qwenベースラインモデルを紹介し、ビジュアルトークンサンプリング戦略で強化し、きめの細かい時空間推論の課題に対する貴重な洞察を提供する。広範な実験により、データセットの複雑性を実証し、既存のモデルの限界を浮き彫りにし、TUMTraffic-VideoQAを知的交通システムの研究を進めるための強固な基盤として位置づける。データセットとベンチマークは、さらなる探求を容易にするために公開されている。
要約(オリジナル)
We present TUMTraffic-VideoQA, a novel dataset and benchmark designed for spatio-temporal video understanding in complex roadside traffic scenarios. The dataset comprises 1,000 videos, featuring 85,000 multiple-choice QA pairs, 2,300 object captioning, and 5,700 object grounding annotations, encompassing diverse real-world conditions such as adverse weather and traffic anomalies. By incorporating tuple-based spatio-temporal object expressions, TUMTraffic-VideoQA unifies three essential tasks-multiple-choice video question answering, referred object captioning, and spatio-temporal object grounding-within a cohesive evaluation framework. We further introduce the TUMTraffic-Qwen baseline model, enhanced with visual token sampling strategies, providing valuable insights into the challenges of fine-grained spatio-temporal reasoning. Extensive experiments demonstrate the dataset’s complexity, highlight the limitations of existing models, and position TUMTraffic-VideoQA as a robust foundation for advancing research in intelligent transportation systems. The dataset and benchmark are publicly available to facilitate further exploration.
arxiv情報
著者 | Xingcheng Zhou,Konstantinos Larintzakis,Hao Guo,Walter Zimmer,Mingyu Liu,Hu Cao,Jiajie Zhang,Venkatnarayanan Lakshminarasimhan,Leah Strand,Alois C. Knoll |
発行日 | 2025-02-04 16:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |