Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval

要約

Web でのビデオの急速な出現により、ビデオとテキスト間のクロスモーダル検索に対する研究の関心が高まっています。
通常、ビデオには豊富なインスタンスとイベント情報が含まれており、クエリ テキストは情報の一部のみを説明しています。
したがって、ビデオは複数の異なるテキストの説明とクエリに対応できます。
この現象を「ビデオとテキストの対応のあいまいさ」の問題と呼びます。
現在の技術は主に、ビデオのコンテンツとテキストの間のローカルまたはマルチレベルのアラインメント (\textit{e.g.} オブジェクトからエンティティ、アクションから動詞) をマイニングすることに集中しています。
これらの方法では、ビデオとテキストの対応のあいまいさを、複数の異なるテキストの特徴と同時に一致させる必要がある単一の特徴のみを使用してビデオを記述することによって軽減することは困難です。
この問題に対処するために、ビデオトークン機能の適応集約によってビデオを説明する複数のプロトタイプを自動的にキャプチャするテキスト適応複数ビジュアルプロトタイプマッチングモデルを提案します。
クエリ テキストが与えられると、最も類似したプロトタイプによって類似性が判断され、ビデオ内の対応が検出されます。これは、テキスト適応型マッチングと呼ばれます。
ビデオの豊富な情報を表現するための多様なプロトタイプを学習するために、さまざまなプロトタイプがビデオのさまざまなコンテンツに注意を向けるようにする分散損失を提案します。
私たちの方法は、4 つの公開ビデオ検索データセットで最先端の方法よりも優れています。

要約(オリジナル)

Cross-modal retrieval between videos and texts has gained increasing research interest due to the rapid emergence of videos on the web. Generally, a video contains rich instance and event information and the query text only describes a part of the information. Thus, a video can correspond to multiple different text descriptions and queries. We call this phenomenon the “Video-Text Correspondence Ambiguity” problem. Current techniques mostly concentrate on mining local or multi-level alignment between contents of a video and text (\textit{e.g.}, object to entity and action to verb). It is difficult for these methods to alleviate the video-text correspondence ambiguity by describing a video using only one single feature, which is required to be matched with multiple different text features at the same time. To address this problem, we propose a Text-Adaptive Multiple Visual Prototype Matching model, which automatically captures multiple prototypes to describe a video by adaptive aggregation of video token features. Given a query text, the similarity is determined by the most similar prototype to find correspondence in the video, which is termed text-adaptive matching. To learn diverse prototypes for representing the rich information in videos, we propose a variance loss to encourage different prototypes to attend to different contents of the video. Our method outperforms state-of-the-art methods on four public video retrieval datasets.

arxiv情報

著者 Chengzhi Lin,Ancong Wu,Junwei Liang,Jun Zhang,Wenhang Ge,Wei-Shi Zheng,Chunhua Shen
発行日 2022-09-27 11:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR パーマリンク