要約
マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質問応答において優れたパフォーマンスを示しています。
この論文では、質問に答える高密度ビデオ イベントを紹介します。これは、長いビデオ内の高密度イベントの質問に答えて根拠を示す必要がある新しいタスクです。したがって、MLLM は、長期間にわたって発生する複数のイベントを忠実に理解して推論することが困難になります。
研究を促進するために、私たちは DeVE-QA を構築しました。これは、10.6K の長いビデオ上の 26,000 のイベントに関する 78,000 の質問を特徴とするデータセットです。
次に、単一イベント QA で優れた既存の MLLM が DeVE-QA ではうまくパフォーマンスを発揮できないことをベンチマークし、示します。
改善のために、私たちは DeVi を提案します。これは、階層型キャプション モジュール、時間的イベント メモリ モジュール、および自己一貫性チェック モジュールを強調表示し、長いビデオ内の高密度イベントをそれぞれ検出、文脈化して記憶、およびグラウンディングする、トレーニング不要の新しい MLLM アプローチです。
質問に答えるため。
広範な実験により、DeVi は、高密度のイベントの質問に答え、関連するビデオの瞬間を根拠付ける点で優れていることが示されています。
既存の MLLM と比較して、DeVE-QA と NExT-GQA での G(round)QA 精度がそれぞれ 4.1 パーセントと 3.7 パーセントという大幅な向上を達成しました。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have shown excellent performance in question-answering of single-event videos. In this paper, we present question-answering dense video events, a novel task that requires answering and grounding the dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events occurring over extended time periods. To facilitate the study, we construct DeVE-QA – a dataset featuring 78K questions about 26K events on 10.6K long videos. We then benchmark and show that existing MLLMs excelling at single-event QA struggle to perform well in DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.1 percent and 3.7 percent for G(round)QA accuracy on DeVE-QA and NExT-GQA respectively.
arxiv情報
著者 | Hangyu Qin,Junbin Xiao,Angela Yao |
発行日 | 2024-09-09 13:15:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google