Boosting Video-Text Retrieval with Explicit High-Level Semantics

要約

ビデオ・テキスト検索(VTR)は、マルチモーダル理解のための魅力的かつ困難な課題であり、クエリ(ビデオ)から関連するビデオ(テキスト)を検索することを目的としている。既存の手法は、ビデオとテキストを整合させるために、完全に異種な視覚・文字情報を用いる一方で、両モダリティに存在する同種の高レベルの意味情報を認識することができないのが一般的である。このギャップを埋めるため、本研究では、HiSE for VTRと名付けた新しい視覚-言語アライメントモデルを提案し、高レベルのセマンティクスを組み込むことによってクロスモーダル表現を向上させる。まず、高階層セマンティクスの階層的特性を明らかにし、さらにそれを離散的セマンティクスと全体的セマンティクスの2つのレベルに分解する。具体的には、視覚的枝に対して、市販の意味的実体予測器を用いて離散的な高レベル意味論を生成する。これと並行して、学習済みのビデオキャプションモデルを用い、全体的な高レベルの意味づけを出力する。テキストモダリティとしては、テキストを出現、行動、実体の3つの部分に分けて解析する。特に、出現は全体的な高レベルの意味論に対応し、アクションとエンティティは離散的な意味論に対応する。次に、全体的な意味論と離散的な意味論の間の相互作用を促進するために、異なるグラフ推論技術を利用する。本手法は、MSR-VTT、MSVD、DiDeMoの3つのベンチマークデータセットにおいて、明示的な高レベルセマンティクスの助けを借りて、最先端の手法よりも優れた性能を達成することが、広範な実験により実証された。

要約(オリジナル)

Video-text retrieval (VTR) is an attractive yet challenging task for multi-modal understanding, which aims to search for relevant video (text) given a query (video). Existing methods typically employ completely heterogeneous visual-textual information to align video and text, whilst lacking the awareness of homogeneous high-level semantic information residing in both modalities. To fill this gap, in this work, we propose a novel visual-linguistic aligning model named HiSE for VTR, which improves the cross-modal representation by incorporating explicit high-level semantics. First, we explore the hierarchical property of explicit high-level semantics, and further decompose it into two levels, i.e. discrete semantics and holistic semantics. Specifically, for visual branch, we exploit an off-the-shelf semantic entity predictor to generate discrete high-level semantics. In parallel, a trained video captioning model is employed to output holistic high-level semantics. As for the textual modality, we parse the text into three parts including occurrence, action and entity. In particular, the occurrence corresponds to the holistic high-level semantics, meanwhile both action and entity represent the discrete ones. Then, different graph reasoning techniques are utilized to promote the interaction between holistic and discrete high-level semantics. Extensive experiments demonstrate that, with the aid of explicit high-level semantics, our method achieves the superior performance over state-of-the-art methods on three benchmark datasets, including MSR-VTT, MSVD and DiDeMo.

arxiv情報

著者 Haoran Wang,Di Xu,Dongliang He,Fu Li,Zhong Ji,Jungong Han,Errui Ding
発行日 2022-08-08 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク