Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

要約

この論文では、長い形式の自己中心的なビデオにおけるマルチホップ ビデオ質問応答 (MH-VidQA) の問題について考察します。
このタスクでは、視覚的な質問に答えるだけでなく、ビデオ内の複数の関連する時間間隔を視覚的な証拠として特定する必要もあります。
私たちは自動化されたパイプラインを開発して、関連する一時的な証拠を備えたマルチホップの質問と回答のペアを作成し、命令チューニング用の大規模なデータセットを構築できるようにします。
この新しいタスクの進捗を監視するために、私たちは慎重な手動検証と改良を行って、高品質のベンチマークである MultiHop-EgoQA をさらに厳選しました。
実験結果から、既存のマルチモーダル システムではマルチホップの接地能力と推論能力が不十分であり、その結果、満足のいくパフォーマンスが得られないことが明らかになりました。
次に、柔軟なグラウンディング トークンを使用してビデオから時間的証拠を取得するグラウンディング モジュールを組み込むことで、マルチモーダル大規模言語モデル (MLLM) を強化する、大規模言語モデルによるグラウンディング散乱証拠 (GeLM) と呼ばれる新しいアーキテクチャを提案します。
視覚的な指示データに基づいてトレーニングされた GeLM は、マルチホップ グラウンディングと推論機能の向上を実証し、この困難なタスクに対する新しいベースラインを設定します。
さらに、三人称視点のビデオでトレーニングすると、同じアーキテクチャがシングルホップ VidQA ベンチマークである ActivityNet-RTL で最先端のパフォーマンスを達成し、その有効性が実証されました。

要約(オリジナル)

This paper considers the problem of Multi-Hop Video Question Answering (MH-VidQA) in long-form egocentric videos. This task not only requires to answer visual questions, but also to localize multiple relevant time intervals within the video as visual evidences. We develop an automated pipeline to create multi-hop question-answering pairs with associated temporal evidence, enabling to construct a large-scale dataset for instruction-tuning. To monitor the progress of this new task, we further curate a high-quality benchmark, MultiHop-EgoQA, with careful manual verification and refinement. Experimental results reveal that existing multi-modal systems exhibit inadequate multi-hop grounding and reasoning abilities, resulting in unsatisfactory performance. We then propose a novel architecture, termed as Grounding Scattered Evidence with Large Language Model (GeLM), that enhances multi-modal large language models (MLLMs) by incorporating a grounding module to retrieve temporal evidence from videos using flexible grounding tokens. Trained on our visual instruction data, GeLM demonstrates improved multi-hop grounding and reasoning capabilities, setting a new baseline for this challenging task. Furthermore, when trained on third-person view videos, the same architecture also achieves state-of-the-art performance on the single-hop VidQA benchmark, ActivityNet-RTL, demonstrating its effectiveness.

arxiv情報

著者 Qirui Chen,Shangzhe Di,Weidi Xie
発行日 2024-08-26 17:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク