要約
最近、教師なし画像検索のパフォーマンスを向上させるために、事前トレーニングされた CNN モデルによって抽出された画像特徴間の類似性に基づくセマンティック類似性マトリックスを設計することによって、多くの教師なしハッシュ法が提案されています。
ただし、これらの方法のほとんどは、画像に含まれる高レベルの抽象的な意味概念を無視する傾向があります。
直感的に、概念は画像間の類似性を計算する上で重要な役割を果たします。
現実のシナリオでは、各画像はいくつかの概念に関連付けられており、2 つの画像がより多くの同一の概念を共有している場合、2 つの画像間の類似性は大きくなります。
上記の直感に着想を得て、この作業では、UHSCM と呼ばれるセマンティック コンセプト マイニングを使用した新しい教師なしハッシングを提案します。これは、VLP モデルを活用して高品質の類似性マトリックスを構築します。
具体的には、ランダムに選択された一連の概念が最初に収集されます。
次に、視覚表現学習で強力な力を示したプロンプトエンジニアリングを備えたビジョン言語事前トレーニング(VLP)モデルを採用することにより、トレーニング画像に従って一連の概念がノイズ除去されます。
次に、提案された方法 UHSCM は、各画像の概念分布をマイニングし、マイニングされた概念分布に基づいて高品質の意味的類似性マトリックスを構築するように再度プロンプトを表示して VLP モデルを適用します。
最後に、意味的類似性マトリックスをガイド情報として使用して、ハッシュネットワークを最適化するために、修正された対照的損失ベースの正則化項目を使用した新しいハッシュ損失が提案されます。
3 つのベンチマーク データセットに関する広範な実験により、提案された方法が画像検索タスクで最先端のベースラインよりも優れていることが示されています。
要約(オリジナル)
Recently, to improve the unsupervised image retrieval performance, plenty of unsupervised hashing methods have been proposed by designing a semantic similarity matrix, which is based on the similarities between image features extracted by a pre-trained CNN model. However, most of these methods tend to ignore high-level abstract semantic concepts contained in images. Intuitively, concepts play an important role in calculating the similarity among images. In real-world scenarios, each image is associated with some concepts, and the similarity between two images will be larger if they share more identical concepts. Inspired by the above intuition, in this work, we propose a novel Unsupervised Hashing with Semantic Concept Mining, called UHSCM, which leverages a VLP model to construct a high-quality similarity matrix. Specifically, a set of randomly chosen concepts is first collected. Then, by employing a vision-language pretraining (VLP) model with the prompt engineering which has shown strong power in visual representation learning, the set of concepts is denoised according to the training images. Next, the proposed method UHSCM applies the VLP model with prompting again to mine the concept distribution of each image and construct a high-quality semantic similarity matrix based on the mined concept distributions. Finally, with the semantic similarity matrix as guiding information, a novel hashing loss with a modified contrastive loss based regularization item is proposed to optimize the hashing network. Extensive experiments on three benchmark datasets show that the proposed method outperforms the state-of-the-art baselines in the image retrieval task.
arxiv情報
著者 | Rong-Cheng Tu,Xian-Ling Mao,Kevin Qinghong Lin,Chengfei Cai,Weize Qin,Hongfa Wang,Wei Wei,Heyan Huang |
発行日 | 2022-09-23 08:25:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google