Orthonormal Product Quantization Network for Scalable Face Image Retrieval

要約

既存の深層量子化法は、大規模な画像検索に対して効率的な解決策を提供しました。しかし、顔画像におけるポーズ、照明、表情などのクラス内変動の大きさは、顔画像検索の課題となっています。このため、顔画像検索には、現在の量子化手法にはない強力な学習指標が必要となります。さらに、顔画像検索は、検索段階で増え続ける未知のアイデンティティに対処するため、一般的な画像検索タスクよりもモデルの一般化とシステムのスケーラビリティに関する要求が高くなる。本論文では、顔画像を効果的に検索するために、直交制約を用いた積量子化をエンドツーエンドの深層学習フレームワークに統合する。具体的には、量子化の情報性を高め、コードワードの冗長性を低減するために、コードワードとして予め定義された直交ベクトルを使用する新規なスキームが提案される。また、量子化された特徴量と元の特徴量の両方について、各量子化部分空間における同一性間の識別性を最大化する損失関数を調整した。量子化誤差を低減するために、エントロピーに基づく正則化項が課される。実験では、よく使われる4つの顔データセットを用いて、見た顔と見たことのない顔の両方のアイデンティティを検索する設定を行った。我々の方法は、両方の設定において、比較されたすべてのディープハッシュ/量子化最先端技術を凌駕するものであった。結果は、モデルの標準的な検索性能と汎化能力を向上させる上で、提案した直交コードワードの有効性を検証している。2つの一般的な画像データセットに対する更なる実験と組み合わせることで、スケーラブルな画像検索に対する本手法の広範な優位性を実証している。

要約(オリジナル)

Existing deep quantization methods provided an efficient solution for large-scale image retrieval. However, the significant intra-class variations like pose, illumination, and expressions in face images, still pose a challenge for face image retrieval. In light of this, face image retrieval requires sufficiently powerful learning metrics, which are absent in current deep quantization works. Moreover, to tackle the growing unseen identities in the query stage, face image retrieval drives more demands regarding model generalization and system scalability than general image retrieval tasks. This paper integrates product quantization with orthonormal constraints into an end-to-end deep learning framework to effectively retrieve face images. Specifically, a novel scheme that uses predefined orthonormal vectors as codewords is proposed to enhance the quantization informativeness and reduce codewords’ redundancy. A tailored loss function maximizes discriminability among identities in each quantization subspace for both the quantized and original features. An entropy-based regularization term is imposed to reduce the quantization error. Experiments are conducted on four commonly-used face datasets under both seen and unseen identities retrieval settings. Our method outperforms all the compared deep hashing/quantization state-of-the-arts under both settings. Results validate the effectiveness of the proposed orthonormal codewords in improving models’ standard retrieval performance and generalization ability. Combing with further experiments on two general image datasets, it demonstrates the broad superiority of our method for scalable image retrieval.

arxiv情報

著者 Ming Zhang,Xuefei Zhe,Hong Yan
発行日 2023-05-12 11:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク