Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination

要約

既存の画像とテキストのマッチング手法のほとんどは、最適化目標としてトリプレット損失を採用しており、モデルを効果的にトレーニングするには、<アンカー、ポジティブ、ネガティブ> のトリプレットに対して適切なネガティブ サンプルを選択することが重要です。たとえば、ハード ネガティブによりモデルが効率的に学習し、
効果的に。
ただし、既存の方法では主に最も類似したサンプルがハード ネガティブとして使用されており、これは真のネガティブではない可能性があることが観察されています。
言い換えれば、類似性は高いがアンカーとペアになっていないサンプルは、肯定的な意味上の関連性を保持している可能性があり、それらを偽陰性と呼びます。
トリプレット損失におけるこれらの偽陰性を撃退すると、意味表現の学習が誤解され、検索パフォーマンスが低下します。
この論文では、偽陰性によってもたらされる問題を軽減できる、サンプリングによって陰性を選択するための新しい偽陰性除去 (FNE) 戦略を提案します。
具体的には、まず、画像エンコーダーとテキストエンコーダーから抽出された特徴に基づいて、アンカーとの類似性を介してポジティブサンプルとネガティブサンプルの分布を個別に構築します。
次に、アンカーとの類似性とベイズ則による上記の分布に基づいて、特定のサンプルの偽陰性確率を計算します。これは、ネガティブ サンプリング プロセス中にサンプリングの重みとして使用されます。
小さなバッチ サイズでは偽陰性が存在しない可能性があるため、大きなネガティブ バッファーを保持する勢いでメモリ モジュールを設計し、バッファー全体にわたるネガティブ サンプリング戦略を実装します。
さらに、モデルがハード ネガに焦点を当てるために、カットダウン戦略を使用してシンプル ネガのサンプリング重みを再割り当てします。
Flickr30K と MS-COCO で広範な実験が行われ、その結果は、私たちが提案した偽陰性排除戦略の優位性を示しています。
コードは https://github.com/LuminosityX/FNE で入手できます。

要約(オリジナル)

Most existing image-text matching methods adopt triplet loss as the optimization objective, and choosing a proper negative sample for the triplet of is important for effectively training the model, e.g., hard negatives make the model learn efficiently and effectively. However, we observe that existing methods mainly employ the most similar samples as hard negatives, which may not be true negatives. In other words, the samples with high similarity but not paired with the anchor may reserve positive semantic associations, and we call them false negatives. Repelling these false negatives in triplet loss would mislead the semantic representation learning and result in inferior retrieval performance. In this paper, we propose a novel False Negative Elimination (FNE) strategy to select negatives via sampling, which could alleviate the problem introduced by false negatives. Specifically, we first construct the distributions of positive and negative samples separately via their similarities with the anchor, based on the features extracted from image and text encoders. Then we calculate the false negative probability of a given sample based on its similarity with the anchor and the above distributions via the Bayes’ rule, which is employed as the sampling weight during negative sampling process. Since there may not exist any false negative in a small batch size, we design a memory module with momentum to retain a large negative buffer and implement our negative sampling strategy spanning over the buffer. In addition, to make the model focus on hard negatives, we reassign the sampling weights for the simple negatives with a cut-down strategy. The extensive experiments are conducted on Flickr30K and MS-COCO, and the results demonstrate the superiority of our proposed false negative elimination strategy. The code is available at https://github.com/LuminosityX/FNE.

arxiv情報

著者 Haoxuan Li,Yi Bin,Junrong Liao,Yang Yang,Heng Tao Shen
発行日 2023-08-08 16:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク