Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval

要約

画像キャプション検索 (ICR) メソッドをトレーニングするには、最適化関数としてコントラスト損失関数を選択するのが一般的です。
残念ながら、対照的な ICR 手法は、予測特徴抑制に対して脆弱です。
予測特徴は、クエリと候補項目の間の類似性を正確に示す特徴です。
ただし、トレーニング中に複数の予測特徴が存在する場合、エンコーダー モデルは冗長な予測特徴を抑制する傾向があります。これは、これらの特徴は正と負のペアを区別することを学習するのに必要ないためです。
一部の予測特徴はトレーニング中には冗長ですが、これらの特徴は評価中に関連する可能性があります。
リソースに制約のある ICR 手法の予測特徴抑制を軽減するアプローチである潜在ターゲット デコーディング (LTD) を紹介します。
対照的な ICR フレームワークに追加のデコーダを追加して、汎用文エンコーダの潜在空間で入力キャプションを再構築します。これにより、画像エンコーダとキャプション エンコーダが予測特徴を抑制するのを防ぎます。
LTD 目標を最適化制約として実装し、主にコントラスト損失を最適化しながら、再構成損失が境界値を下回るようにします。
重要なのは、LTD が追加のトレーニング データや高価な (ハードな) ネガティブ マイニング戦略に依存していないことです。
私たちの実験では、入力空間で入力キャプションを再構成するのとは異なり、LTD は、対照的な ICR ベースラインよりも高い再現率 @k、r 精度、および nDCG スコアを取得することで測定される予測特徴抑制を軽減することを示しています。
さらに、LTD は二重最適化目標ではなく最適化制約として実装されるべきであることを示します。
最後に、LTD がさまざまな対比学習損失やリソースに制約のあるさまざまな ICR 手法とともに使用できることを示します。

要約(オリジナル)

To train image-caption retrieval (ICR) methods, contrastive loss functions are a common choice for optimization functions. Unfortunately, contrastive ICR methods are vulnerable to predictive feature suppression. Predictive features are features that correctly indicate the similarity between a query and a candidate item. However, in the presence of multiple predictive features during training, encoder models tend to suppress redundant predictive features, since these features are not needed to learn to discriminate between positive and negative pairs. While some predictive features are redundant during training, these features might be relevant during evaluation. We introduce an approach to reduce predictive feature suppression for resource-constrained ICR methods: latent target decoding (LTD). We add an additional decoder to the contrastive ICR framework, to reconstruct the input caption in a latent space of a general-purpose sentence encoder, which prevents the image and caption encoder from suppressing predictive features. We implement the LTD objective as an optimization constraint, to ensure that the reconstruction loss is below a bound value while primarily optimizing for the contrastive loss. Importantly, LTD does not depend on additional training data or expensive (hard) negative mining strategies. Our experiments show that, unlike reconstructing the input caption in the input space, LTD reduces predictive feature suppression, measured by obtaining higher recall@k, r-precision, and nDCG scores than a contrastive ICR baseline. Moreover, we show that LTD should be implemented as an optimization constraint instead of a dual optimization objective. Finally, we show that LTD can be used with different contrastive learning losses and a wide variety of resource-constrained ICR methods.

arxiv情報

著者 Maurits Bleeker,Andrew Yates,Maarten de Rijke
発行日 2023-06-07 09:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク