Question-Answering Dense Video Events

要約

このペーパーでは、密集したビデオイベントに関する質問を提示します。これは、長いビデオで密集したイベントの質問に答える斬新なタスクであるため、MLLMが長期間にわたって複数のイベントを忠実に理解し、推論することに挑戦します。
調査を容易にするために、10.6kのビデオで26Kイベントに関する78Kの質問を紹介するデータセットであるDeve-Qaを構築します。
私たちのベンチマークは、最先端のMLLMがDeve-Qaで苦労していることを示しています。
改善のために、階層的なキャプションモジュール、一時的なイベントメモリモジュール、およびそれぞれ質問の回答のための長いビデオで密集したイベントを検出、文脈化、記憶し、地面に輝かせる自己整合性チェックモジュールを強調する新しいトレーニングフリーMLLMアプローチであるDeviを提案します。
広範な実験は、Deviが密集した質問に答えるのが優れていることを示しており、関連するビデオの瞬間を接地しています。
既存のMLLMSと比較して、G(ラウンド)QAの精度でそれぞれ4.8%と2.1%の顕著な増加を達成し、それぞれDeve-Qa〜およびNext-Gqaが獲得します。
私たちのデータとコードは、受け入れられるとリリースされます。

要約(オリジナル)

This paper presents question-answering on dense video events, a novel task that answers and grounds dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events over extended periods of time. To facilitate the study, we construct DeVE-QA — a dataset featuring 78K questions about 26K events on 10.6K long videos. Our benchmarking shows that state-of-the-art MLLMs struggle on DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.8% and 2.1% for G(round)QA accuracy on DeVE-QA~and NExT-GQA, respectively. Our data and code will be released upon acceptance.

arxiv情報

著者 Hangyu Qin,Junbin Xiao,Angela Yao
発行日 2025-05-07 14:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク