Active Mining Sample Pair Semantics for Image-text Matching

要約

最近、画像とテキストのマッチングにおける常識学習が話題になっています。
より多くのグラフィック相関を記述することができますが、常識的な学習にはまだいくつかの欠点があります。 1) 既存の方法は、トリプレットの意味的類似性測定損失に基づいており、画像とテキストのサンプルのペアにおける扱いにくいネガティブを効果的に照合することができません。
2) モデルの汎化能力が弱いため、大規模なデータセットに対する画像とテキストのマッチングの効果が低下します。
これらの欠点によると。
この論文では、アクティブ マイニング サンプル ペア セマンティクス画像テキスト マッチング モデル (AMSPS) と呼ばれる、新しい画像テキスト マッチング モデルを提案します。
トリプレット損失関数を備えた常識学習モデルの単一意味学習モードと比較して、AMSPS は能動学習のアイデアです。
まず、提案されている適応階層強化損失 (AHRL) は、多様な学習モードを備えています。
アクティブ ラーニング モードにより、モデルは処理が困難なネガティブ サンプルにさらに焦点を当て、識別能力を強化できます。
さらに、AMSPS は、コメントされていない項目からより隠された関連する意味表現を適応的にマイニングすることもできるため、モデルのパフォーマンスと一般化能力が大幅に向上します。
Flickr30K および MSCOCO ユニバーサル データセットの実験結果は、私たちの提案した方法が高度な比較方法よりも優れていることを示しています。

要約(オリジナル)

Recently, commonsense learning has been a hot topic in image-text matching. Although it can describe more graphic correlations, commonsense learning still has some shortcomings: 1) The existing methods are based on triplet semantic similarity measurement loss, which cannot effectively match the intractable negative in image-text sample pairs. 2) The weak generalization ability of the model leads to the poor effect of image and text matching on large-scale datasets. According to these shortcomings. This paper proposes a novel image-text matching model, called Active Mining Sample Pair Semantics image-text matching model (AMSPS). Compared with the single semantic learning mode of the commonsense learning model with triplet loss function, AMSPS is an active learning idea. Firstly, the proposed Adaptive Hierarchical Reinforcement Loss (AHRL) has diversified learning modes. Its active learning mode enables the model to more focus on the intractable negative samples to enhance the discriminating ability. In addition, AMSPS can also adaptively mine more hidden relevant semantic representations from uncommented items, which greatly improves the performance and generalization ability of the model. Experimental results on Flickr30K and MSCOCO universal datasets show that our proposed method is superior to advanced comparison methods.

arxiv情報

著者 Yongfeng Chena,Jin Liua,Zhijing Yang,Ruihan Chena,Junpeng Tan
発行日 2023-11-09 15:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク