Unsupervised Hashing with Similarity Distribution Calibration

要約

教師なしハッシュ手法は通常、特徴空間内のデータ ポイントをバイナリ ハッシュ コードにマッピングすることで、データ ポイント間の類似性を保存することを目的としています。
ただし、これらの方法では、ハッシュ コードの類似範囲が限られているため、連続特徴空間内のデータ ポイント間の類似性が離散ハッシュ コード空間では保存されない可能性があるという事実が見落とされます。
類似性の範囲はコード長によって制限されるため、類似性の崩壊として知られる問題が発生する可能性があります。
つまり、データ ポイントの正と負のペアは、ハッシュ空間内で互いに区別しにくくなります。
この問題を軽減するために、この文書では新しい類似性分布キャリブレーション (SDC) 方法を紹介します。
SDC は、ハッシュ コードの類似性分布を、類似性の範囲全体にわたって十分に分散したキャリブレーション分布 (ベータ分布など) に合わせて調整し、類似性の崩壊の問題を軽減します。
広範な実験により、当社の SDC は、大まかなカテゴリ レベルおよびインスタンス レベルの画像検索において、最先端の代替手段よりも大幅に優れていることが示されています。
コードは https://github.com/kamwoh/sdc で入手できます。

要約(オリジナル)

Unsupervised hashing methods typically aim to preserve the similarity between data points in a feature space by mapping them to binary hash codes. However, these methods often overlook the fact that the similarity between data points in the continuous feature space may not be preserved in the discrete hash code space, due to the limited similarity range of hash codes. The similarity range is bounded by the code length and can lead to a problem known as similarity collapse. That is, the positive and negative pairs of data points become less distinguishable from each other in the hash space. To alleviate this problem, in this paper a novel Similarity Distribution Calibration (SDC) method is introduced. SDC aligns the hash code similarity distribution towards a calibration distribution (e.g., beta distribution) with sufficient spread across the entire similarity range, thus alleviating the similarity collapse problem. Extensive experiments show that our SDC outperforms significantly the state-of-the-art alternatives on coarse category-level and instance-level image retrieval. Code is available at https://github.com/kamwoh/sdc.

arxiv情報

著者 Kam Woh Ng,Xiatian Zhu,Jiun Tian Hoe,Chee Seng Chan,Tianyu Zhang,Yi-Zhe Song,Tao Xiang
発行日 2023-08-31 11:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク