Multi-event Video-Text Retrieval

要約

ビデオ テキスト検索 (VTR) は、インターネット上の大量のビデオ テキスト データの時代において、重要なマルチモーダル タスクです。
ビデオとテキストのペアの共同表現を学習する 2 ストリームの視覚言語モデル アーキテクチャを使用することを特徴とする多くの作業が、VTR タスクの有力なアプローチになっています。
ただし、これらのモデルは全単射のビデオとテキストの対応を前提として動作し、ビデオ コンテンツには通常複数のイベントが含まれる一方、ユーザー クエリや Web ページのメタデータなどのテキストは特定のものであり、単一のイベントに対応する傾向があるという、より現実的なシナリオを無視しています。
これにより、以前のトレーニング目標と現実世界のアプリケーションの間にギャップが生じ、推論中に以前のモデルのパフォーマンスが低下する可能性があります。
本研究では、従来のビデオテキスト検索タスクのニッチなシナリオとして、各ビデオに複数の異なるイベントが含まれるシナリオに対処するマルチイベントビデオテキスト検索(MeVTR)タスクを紹介します。
主要なイベントのビデオ表現と MeVTR タスクの新しい MeVTR 損失を組み込んだ単純なモデル Me-Retriever を紹介します。
包括的な実験により、この単純なフレームワークがビデオからテキストへのタスクおよびテキストからビデオへのタスクにおいて他のモデルよりも優れたパフォーマンスを示し、MeVTR タスクの堅牢なベースラインを効果的に確立できることがわかりました。
私たちは、この研究が将来の研究のための強力な基盤となると信じています。
コードは https://github.com/gengyuanmax/MeVTR で入手できます。

要約(オリジナル)

Video-Text Retrieval (VTR) is a crucial multi-modal task in an era of massive video-text data on the Internet. A plethora of work characterized by using a two-stream Vision-Language model architecture that learns a joint representation of video-text pairs has become a prominent approach for the VTR task. However, these models operate under the assumption of bijective video-text correspondences and neglect a more practical scenario where video content usually encompasses multiple events, while texts like user queries or webpage metadata tend to be specific and correspond to single events. This establishes a gap between the previous training objective and real-world applications, leading to the potential performance degradation of earlier models during inference. In this study, we introduce the Multi-event Video-Text Retrieval (MeVTR) task, addressing scenarios in which each video contains multiple different events, as a niche scenario of the conventional Video-Text Retrieval Task. We present a simple model, Me-Retriever, which incorporates key event video representation and a new MeVTR loss for the MeVTR task. Comprehensive experiments show that this straightforward framework outperforms other models in the Video-to-Text and Text-to-Video tasks, effectively establishing a robust baseline for the MeVTR task. We believe this work serves as a strong foundation for future studies. Code is available at https://github.com/gengyuanmax/MeVTR.

arxiv情報

著者 Gengyuan Zhang,Jisen Ren,Jindong Gu,Volker Tresp
発行日 2023-08-22 16:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク