Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement

要約

ビデオ コーパス モーメント取得 (VCMR) は、テキスト クエリを使用して、トリミングされていないビデオの大規模なコーパスから関連する瞬間を取得することを目的とした新しいビデオ取得タスクです。
ビデオとクエリの関連性は部分的であり、主に次の 2 つの側面で明らかです。~(1)~範囲: トリミングされていないビデオには多くのフレームが含まれていますが、すべてがクエリに関連しているわけではありません。
通常、強い関連性は、関連する瞬間内でのみ観察されます。 ~(2)~モダリティ: クエリの関連性は、モダリティによって異なります。
アクションの説明は視覚的要素とより一致しており、キャラクターの会話はテキスト情報とより関連しています。既存の方法では多くの場合、すべてのビデオ コンテンツを同等に扱い、最適な瞬間の取得が行われていません。
私たちは、クエリとビデオの間の部分的な関連性を効果的にキャプチャすることが VCMR タスクにとって不可欠であると主張します。
この目的のために、我々は VCMR を改善する部分関連強化モデル (PREM) を提案します。
VCMR には、ビデオの取得と瞬間の位置特定という 2 つのサブタスクが含まれます。
彼らの明確な目的に合わせて、私たちは特化した部分的関連性強化戦略を実装します。
ビデオ検索については、モダリティ固有のプーリングによって 2 つのモダリティに対して異なるクエリ表現を生成し、より効果的な一致を保証する、マルチモーダル協調ビデオ リトリーバーを導入します。
モーメントローカリゼーションについては、モダリティ固有のゲートを利用して重要なコンテンツをキャプチャする、focus-then-fuse モーメントローカライザーを提案します。
また、関連コンテンツをキャプチャするモデルの能力を強化するために、レトリーバーとローカライザーの両方に関連コンテンツ強化トレーニング手法を導入します。
TVR および DiDeMo データセットの実験結果は、提案されたモデルがベースラインを上回り、新しい最先端の VCMR を達成していることを示しています。
コードは \url{https://github.com/hdy007007/PREM} で入手できます。

要約(オリジナル)

Video Corpus Moment Retrieval (VCMR) is a new video retrieval task aimed at retrieving a relevant moment from a large corpus of untrimmed videos using a text query. The relevance between the video and query is partial, mainly evident in two aspects:~(1)~Scope: The untrimmed video contains many frames, but not all are relevant to the query. Strong relevance is typically observed only within the relevant moment.~(2)~Modality: The relevance of the query varies with different modalities. Action descriptions align more with visual elements, while character conversations are more related to textual information.Existing methods often treat all video contents equally, leading to sub-optimal moment retrieval. We argue that effectively capturing the partial relevance between the query and video is essential for the VCMR task. To this end, we propose a Partial Relevance Enhanced Model~(PREM) to improve VCMR. VCMR involves two sub-tasks: video retrieval and moment localization. To align with their distinct objectives, we implement specialized partial relevance enhancement strategies. For video retrieval, we introduce a multi-modal collaborative video retriever, generating different query representations for the two modalities by modality-specific pooling, ensuring a more effective match. For moment localization, we propose the focus-then-fuse moment localizer, utilizing modality-specific gates to capture essential content. We also introduce relevant content-enhanced training methods for both retriever and localizer to enhance the ability of model to capture relevant content. Experimental results on TVR and DiDeMo datasets show that the proposed model outperforms the baselines, achieving a new state-of-the-art of VCMR. The code is available at \url{https://github.com/hdy007007/PREM}.

arxiv情報

著者 Danyang Hou,Liang Pang,Huawei Shen,Xueqi Cheng
発行日 2024-04-23 14:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク