要約
Video Question Answering (VideoQA)では、動画とテキストのクロスモーダル学習が重要な役割を担っている。本論文では、VideoQAのためのクロスモーダル学習を導くために、一般的なドメインの言語と画像のペアを多数学習したCLIP(Contrastive Language-Image Pre-training)を利用する視覚とテキストの注目機構を提案します。具体的には、まず、ターゲットアプリケーションドメインからTimeSformerを用いた映像特徴とBERTを用いたテキスト特徴を抽出し、CLIPを利用して、ドメイン固有学習により一般知識ドメインから映像-テキスト特徴のペアを抽出する。次に、ターゲットドメインと一般ドメインにまたがる視覚的特徴と言語的特徴の間の注目情報を抽出するためのクロスドメインラーニングを提案する。CLIPによって導かれた視覚的特徴量と言語的特徴量のセットは、答えを予測するために統合される。提案手法をMSVD-QAとMSRVTT-QAデータセットで評価し、最先端の手法を凌駕する結果を得た。
要約(オリジナル)
Cross-modal learning of video and text plays a key role in Video Question Answering (VideoQA). In this paper, we propose a visual-text attention mechanism to utilize the Contrastive Language-Image Pre-training (CLIP) trained on lots of general domain language-image pairs to guide the cross-modal learning for VideoQA. Specifically, we first extract video features using a TimeSformer and text features using a BERT from the target application domain, and utilize CLIP to extract a pair of visual-text features from the general-knowledge domain through the domain-specific learning. We then propose a Cross-domain Learning to extract the attention information between visual and linguistic features across the target domain and general domain. The set of CLIP-guided visual-text features are integrated to predict the answer. The proposed method is evaluated on MSVD-QA and MSRVTT-QA datasets, and outperforms state-of-the-art methods.
arxiv情報
著者 | Shuhong Ye,Weikai Kong,Chenglin Yao,Jianfeng Ren,Xudong Jiang |
発行日 | 2023-03-06 13:49:15+00:00 |
arxivサイト | arxiv_id(pdf) |