Image-Text Retrieval with Binary and Continuous Label Supervision

要約

ほとんどの画像とテキストの検索作業では、画像とテキストのペアが一致するかどうかを示すバイナリ ラベルが採用されています。
このようなバイナリ インジケーターは、画像とテキストの意味関係の限定されたサブセットのみをカバーします。これは、画像キャプションなどの連続したラベルによって記述される画像とテキストの間の関連度を表すには不十分です。
バイナリ ラベルを学習することによって得られる視覚的意味埋め込み空間は一貫性がなく、関連度を完全に特徴付けることができません。
バイナリ ラベルの使用に加えて、このホワイト ペーパーでは、関連度を示すために、連続した疑似ラベル (通常はキャプション間のテキストの類似性によって概算される) をさらに組み込みます。
コヒーレントな埋め込み空間を学習するために、Binary and Continuous Label Supervision (BCLS) を使用した画像テキスト検索フレームワークを提案します。このフレームワークでは、バイナリ ラベルを使用して検索モデルが制限されたバイナリ相関を学習するように誘導し、連続ラベルは次の学習を補完します。
画像とテキストの意味関係。
バイナリ ラベルの学習では、一般的なトリプレット ランキング ロスをソフト ネガティブ マイニング (トリプレット SN) で改善し、収束を改善します。
連続ラベルの学習では、Kendall 順位相関係数 (Kendall) に触発された Kendall 順位損失を設計します。これにより、検索モデルによって予測された類似性スコアと連続ラベルの間の相関が改善されます。
連続疑似ラベルによって導入されたノイズを軽減するために、スライディング ウィンドウ サンプリングとハード サンプル マイニング戦略 (SW-HS) をさらに設計して、ノイズの影響を軽減し、フレームワークの複雑さをトリプレット ランキングと同じ桁まで減らします。
損失。
2 つの画像テキスト検索ベンチマークに関する大規模な実験により、私たちの方法が最先端の画像テキスト検索モデルのパフォーマンスを改善できることが実証されました。

要約(オリジナル)

Most image-text retrieval work adopts binary labels indicating whether a pair of image and text matches or not. Such a binary indicator covers only a limited subset of image-text semantic relations, which is insufficient to represent relevance degrees between images and texts described by continuous labels such as image captions. The visual-semantic embedding space obtained by learning binary labels is incoherent and cannot fully characterize the relevance degrees. In addition to the use of binary labels, this paper further incorporates continuous pseudo labels (generally approximated by text similarity between captions) to indicate the relevance degrees. To learn a coherent embedding space, we propose an image-text retrieval framework with Binary and Continuous Label Supervision (BCLS), where binary labels are used to guide the retrieval model to learn limited binary correlations, and continuous labels are complementary to the learning of image-text semantic relations. For the learning of binary labels, we improve the common Triplet ranking loss with Soft Negative mining (Triplet-SN) to improve convergence. For the learning of continuous labels, we design Kendall ranking loss inspired by Kendall rank correlation coefficient (Kendall), which improves the correlation between the similarity scores predicted by the retrieval model and the continuous labels. To mitigate the noise introduced by the continuous pseudo labels, we further design Sliding Window sampling and Hard Sample mining strategy (SW-HS) to alleviate the impact of noise and reduce the complexity of our framework to the same order of magnitude as the triplet ranking loss. Extensive experiments on two image-text retrieval benchmarks demonstrate that our method can improve the performance of state-of-the-art image-text retrieval models.

arxiv情報

著者 Zheng Li,Caili Guo,Zerun Feng,Jenq-Neng Hwang,Ying Jin,Yufeng Zhang
発行日 2022-10-20 14:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク