Multi-object event graph representation learning for Video Question Answering


ビデオ質問応答 (VideoQA) は、特定のビデオに関して提起された質問に対する正解を予測するタスクです。
これまでの研究は、トランスフォーマーベースの方法を使用して個々のオブジェクトの動きをモデル化することに焦点を当てていましたが、複数のオブジェクトが関与する複雑なシナリオ (たとえば、「少年がフープにボールを投げている」など) をキャプチャする場合にはうまくいきませんでした。
この制限に対処するために、CLanG と呼ばれる対照的な言語イベント グラフ表現学習方法を提案します。
複数のオブジェクトに関連付けられたイベント表現をキャプチャすることを目的として、私たちの方法では、敵対的なグラフ表現学習に多層 GNN クラスター モジュールを採用し、質問テキストとそれに関連するマルチオブジェクト イベント グラフの間の対比学習を可能にします。
私たちの手法は強力なベースラインを上回り、2 つの困難な VideoQA データセット、NExT-QA と TGIF-QA-R で最大 2.2% 高い精度を達成しました。
特に、因果的および時間的質問の処理においてベースラインより 2.8% 優れており、複数のオブジェクトベースのイベントを推論する際の強みが強調されています。


Video question answering (VideoQA) is a task to predict the correct answer to questions posed about a given video. The system must comprehend spatial and temporal relationships among objects extracted from videos to perform causal and temporal reasoning. While prior works have focused on modeling individual object movements using transformer-based methods, they falter when capturing complex scenarios involving multiple objects (e.g., ‘a boy is throwing a ball in a hoop’). We propose a contrastive language event graph representation learning method called CLanG to address this limitation. Aiming to capture event representations associated with multiple objects, our method employs a multi-layer GNN-cluster module for adversarial graph representation learning, enabling contrastive learning between the question text and its relevant multi-object event graph. Our method outperforms a strong baseline, achieving up to 2.2% higher accuracy on two challenging VideoQA datasets, NExT-QA and TGIF-QA-R. In particular, it is 2.8% better than baselines in handling causal and temporal questions, highlighting its strength in reasoning multiple object-based events.


著者 Yanan Wang,Shuichiro Haruta,Donghuo Zeng,Julio Vizcarra,Mori Kurokawa
発行日 2024-09-12 04:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク