要約
近年、短編動画アプリのユーザーはかつてない成長を遂げており、その結果、動画コンテンツ解析の需要が高まっている。特に、膨大な動画コーパスからテキストの説明を与えて、上位にマッチする動画を見つけることを目的としたテキスト-動画検索は不可欠な機能であり、その主要な課題はモダリティギャップを埋めることである。にもかかわらず、既存のアプローチのほとんどは、テキストを単に個別のトークンとして扱い、その構文構造を無視している。さらに、ビデオにある豊富な空間的・時間的手がかりは、テキストとの相互作用がないため、十分に活用されていないことが多い。これらの問題に対処するために、我々は、ビデオ内の関連する時間フレームや空間領域に焦点を当てるためのガイダンスとしてテキストを使用することが有益であると主張する。本論文では、2つの観点からモダリティギャップを埋めるために、テキストに内在する意味階層と構文階層を利用する、新しい構文階層強調テキストビデオ検索法(Syntax-Hierarchy-Enhanced Text-Video Retrieval Method:SHE-Net)を提案する。第一に、視覚コンテンツをよりきめ細かく統合するために、テキスト記述の文法構造を明らかにするテキスト構文階層を視覚表現のガイドとして採用する。第二に、マルチモーダルな相互作用と整合をさらに強化するために、構文階層を類似度計算のガイドとしても利用する。我々は、MSR-VTT、MSVD、DiDeMo、ActivityNetの4つの公開テキスト-ビデオ検索データセットで本手法を評価した。実験結果とアブレーション研究により、提案手法の優位性が確認された。
要約(オリジナル)
The user base of short video apps has experienced unprecedented growth in recent years, resulting in a significant demand for video content analysis. In particular, text-video retrieval, which aims to find the top matching videos given text descriptions from a vast video corpus, is an essential function, the primary challenge of which is to bridge the modality gap. Nevertheless, most existing approaches treat texts merely as discrete tokens and neglect their syntax structures. Moreover, the abundant spatial and temporal clues in videos are often underutilized due to the lack of interaction with text. To address these issues, we argue that using texts as guidance to focus on relevant temporal frames and spatial regions within videos is beneficial. In this paper, we propose a novel Syntax-Hierarchy-Enhanced text-video retrieval method (SHE-Net) that exploits the inherent semantic and syntax hierarchy of texts to bridge the modality gap from two perspectives. First, to facilitate a more fine-grained integration of visual content, we employ the text syntax hierarchy, which reveals the grammatical structure of text descriptions, to guide the visual representations. Second, to further enhance the multi-modal interaction and alignment, we also utilize the syntax hierarchy to guide the similarity calculation. We evaluated our method on four public text-video retrieval datasets of MSR-VTT, MSVD, DiDeMo, and ActivityNet. The experimental results and ablation studies confirm the advantages of our proposed method.
arxiv情報
著者 | Xuzheng Yu,Chen Jiang,Xingning Dong,Tian Gan,Ming Yang,Qingpei Guo |
発行日 | 2024-05-06 13:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |