Improving Video Retrieval by Adaptive Margin

要約

インターネット上でのビデオの急速な出現により、ビデオ検索の重要性がますます高まっています。
ビデオ検索の支配的なパラダイムは、肯定的なペアの類似性と否定的なペアの類似性との間の距離を一定のマージンから遠ざけることによって、ビデオテキスト表現を学習します。
ただし、トレーニングに使用されるネガティブ ペアはランダムにサンプリングされます。これは、ネガティブ ペア間のセマンティクスが関連している、または同等でさえある可能性があることを示していますが、ほとんどの方法では類似性を低下させるために異なる表現を強制しています。
この現象は、ビデオテキスト表現の学習における不正確な監督とパフォーマンスの低下につながります。
ほとんどのビデオ検索方法はその現象を見落としていますが、前述の問題を解決するために、正と負のペア間の距離で変更される適応マージンを提案します。
まず、距離測定方法と距離とマージンの間の関数を含む適応マージンの計算フレームワークを設計します。
次に、「クロスモーダル一般化自己蒸留」(CMGSD) と呼ばれる新しい実装を調べます。これは、ほとんどのビデオ検索モデルの上にわずかな変更で構築できます。
特に、CMGSD はトレーニング時に計算オーバーヘッドをほとんど追加せず、テスト時に計算オーバーヘッドを追加しません。
広く使用されている 3 つのデータセットでの実験結果は、提案された方法が対応するバックボーン モデルよりも大幅に優れたパフォーマンスを発揮し、最先端の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Video retrieval is becoming increasingly important owing to the rapid emergence of videos on the Internet. The dominant paradigm for video retrieval learns video-text representations by pushing the distance between the similarity of positive pairs and that of negative pairs apart from a fixed margin. However, negative pairs used for training are sampled randomly, which indicates that the semantics between negative pairs may be related or even equivalent, while most methods still enforce dissimilar representations to decrease their similarity. This phenomenon leads to inaccurate supervision and poor performance in learning video-text representations. While most video retrieval methods overlook that phenomenon, we propose an adaptive margin changed with the distance between positive and negative pairs to solve the aforementioned issue. First, we design the calculation framework of the adaptive margin, including the method of distance measurement and the function between the distance and the margin. Then, we explore a novel implementation called ‘Cross-Modal Generalized Self-Distillation’ (CMGSD), which can be built on the top of most video retrieval models with few modifications. Notably, CMGSD adds few computational overheads at train time and adds no computational overhead at test time. Experimental results on three widely used datasets demonstrate that the proposed method can yield significantly better performance than the corresponding backbone model, and it outperforms state-of-the-art methods by a large margin.

arxiv情報

著者 Feng He,Qi Wang,Zhifan Feng,Wenbin Jiang,Yajuan Lv,Yong zhu,Xiao Tan
発行日 2023-03-09 08:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク