ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery

要約

既存のきめの細かいハッシュ手法は、グローバル機能とローカル機能の両方を使用してハッシュ コード ビットを総合的に計算するため、通常、コードの解釈可能性に欠けています。
この制限に対処するために、サブコード レベルの解釈可能性を実現する新しいメソッドである ConceptHash を提案します。
ConceptHash では、各サブコードはオブジェクト部分など人間が理解できる概念に対応しており、これらの概念は人間による注釈なしで自動的に検出されます。
具体的には、Vision Transformer アーキテクチャを活用し、モデル入力としてのイメージ パッチ トークンとともに、視覚的なプロンプトとしてコンセプト トークンを導入します。
次に、各概念がモデル出力の特定のサブコードにマッピングされ、自然なサブコードの解釈が可能になります。
非常に類似したサブカテゴリ (鳥の種など) 間の微妙な視覚的な違いを捉えるために、言語ガイダンスを組み込んで、セマンティックな整合性を維持しながら、学習されたハッシュ コードがきめの細かいオブジェクト クラス内で確実に区別できるようにします。
このアプローチにより、他の科の種とは区別されながらも、種の科内での類似性を示すハッシュ コードを開発することができます。
4 つのきめ細かい画像検索ベンチマークに関する広範な実験により、ConceptHash が以前の方法を大幅に上回っており、追加の利点として独自のサブコード解釈可能性を備えていることが実証されました。
コードは https://github.com/kamwoh/concepthash にあります。

要約(オリジナル)

Existing fine-grained hashing methods typically lack code interpretability as they compute hash code bits holistically using both global and local features. To address this limitation, we propose ConceptHash, a novel method that achieves sub-code level interpretability. In ConceptHash, each sub-code corresponds to a human-understandable concept, such as an object part, and these concepts are automatically discovered without human annotations. Specifically, we leverage a Vision Transformer architecture and introduce concept tokens as visual prompts, along with image patch tokens as model inputs. Each concept is then mapped to a specific sub-code at the model output, providing natural sub-code interpretability. To capture subtle visual differences among highly similar sub-categories (e.g., bird species), we incorporate language guidance to ensure that the learned hash codes are distinguishable within fine-grained object classes while maintaining semantic alignment. This approach allows us to develop hash codes that exhibit similarity within families of species while remaining distinct from species in other families. Extensive experiments on four fine-grained image retrieval benchmarks demonstrate that ConceptHash outperforms previous methods by a significant margin, offering unique sub-code interpretability as an additional benefit. Code at: https://github.com/kamwoh/concepthash.

arxiv情報

著者 Kam Woh Ng,Xiatian Zhu,Yi-Zhe Song,Tao Xiang
発行日 2024-06-12 17:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク