Unsupervised Hashing with Semantic Concept Mining


最近、教師なし画像検索のパフォーマンスを向上させるために、事前トレーニングされた CNN モデルによって抽出された画像特徴間の類似性に基づくセマンティック類似性マトリックスを設計することによって、多くの教師なしハッシュ法が提案されています。
現実のシナリオでは、各画像はいくつかの概念に関連付けられており、2 つの画像がより多くの同一の概念を共有している場合、2 つの画像間の類似性は大きくなります。
上記の直感に着想を得て、この作業では、UHSCM と呼ばれるセマンティック コンセプト マイニングを使用した新しい教師なしハッシングを提案します。これは、VLP モデルを活用して高品質の類似性マトリックスを構築します。
次に、提案された方法 UHSCM は、各画像の概念分布をマイニングし、マイニングされた概念分布に基づいて高品質の意味的類似性マトリックスを構築するように再度プロンプトを表示して VLP モデルを適用します。
3 つのベンチマーク データセットに関する広範な実験により、提案された方法が画像検索タスクで最先端のベースラインよりも優れていることが示されています。


Recently, to improve the unsupervised image retrieval performance, plenty of unsupervised hashing methods have been proposed by designing a semantic similarity matrix, which is based on the similarities between image features extracted by a pre-trained CNN model. However, most of these methods tend to ignore high-level abstract semantic concepts contained in images. Intuitively, concepts play an important role in calculating the similarity among images. In real-world scenarios, each image is associated with some concepts, and the similarity between two images will be larger if they share more identical concepts. Inspired by the above intuition, in this work, we propose a novel Unsupervised Hashing with Semantic Concept Mining, called UHSCM, which leverages a VLP model to construct a high-quality similarity matrix. Specifically, a set of randomly chosen concepts is first collected. Then, by employing a vision-language pretraining (VLP) model with the prompt engineering which has shown strong power in visual representation learning, the set of concepts is denoised according to the training images. Next, the proposed method UHSCM applies the VLP model with prompting again to mine the concept distribution of each image and construct a high-quality semantic similarity matrix based on the mined concept distributions. Finally, with the semantic similarity matrix as guiding information, a novel hashing loss with a modified contrastive loss based regularization item is proposed to optimize the hashing network. Extensive experiments on three benchmark datasets show that the proposed method outperforms the state-of-the-art baselines in the image retrieval task.


著者 Rong-Cheng Tu,Xian-Ling Mao,Kevin Qinghong Lin,Chengfei Cai,Weize Qin,Hongfa Wang,Wei Wei,Heyan Huang
発行日 2022-09-23 08:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク