Instance Adaptive Prototypical Contrastive Embedding for Generalized Zero Shot Learning


一般化ゼロショット学習 (GZSL) は、トレーニング中に目に見えないラベルにアクセスできないことを前提として、見えているラベルと見えないラベルからサンプルを分類することを目的としています。
GZSL の最近の進歩は、生成ネットワークに対照学習ベース (インスタンス ベース) の埋め込みを組み込み、データ ポイント間の意味論的な関係を活用することによって促進されています。
しかし、既存の埋め込みアーキテクチャには 2 つの制限があります。(1) きめの細かいクラスタ構造を考慮しないと、合成特徴の埋め込みの識別能力が制限される。
(2) 既存のコントラスト エンベディング ネットワークの制限されたスケーリング メカニズムによる柔軟性のない最適化により、エンベディング空間での重複表現が発生します。
(1) で述べたように、埋め込み空間の表現の品質を向上させるために、プロトタイプ データ (クラスター品質の向上) と暗黙的なデータ データ (微細な
(2) に取り組むために、クラス間のマージンを増加させた、目に見えないラベルの一般化表現につながるインスタンス適応コントラスト損失を提案します。
包括的な実験評価を通じて、私たちの手法が 3 つのベンチマーク データセットで現在の最先端技術を上回るパフォーマンスを発揮できることを示します。
また、私たちのアプローチは、GZSL 設定でこれまでにない最高のパフォーマンスを一貫して達成します。


Generalized zero-shot learning(GZSL) aims to classify samples from seen and unseen labels, assuming unseen labels are not accessible during training. Recent advancements in GZSL have been expedited by incorporating contrastive-learning-based (instance-based) embedding in generative networks and leveraging the semantic relationship between data points. However, existing embedding architectures suffer from two limitations: (1) limited discriminability of synthetic features’ embedding without considering fine-grained cluster structures; (2) inflexible optimization due to restricted scaling mechanisms on existing contrastive embedding networks, leading to overlapped representations in the embedding space. To enhance the quality of representations in the embedding space, as mentioned in (1), we propose a margin-based prototypical contrastive learning embedding network that reaps the benefits of prototype-data (cluster quality enhancement) and implicit data-data (fine-grained representations) interaction while providing substantial cluster supervision to the embedding network and the generator. To tackle (2), we propose an instance adaptive contrastive loss that leads to generalized representations for unseen labels with increased inter-class margin. Through comprehensive experimental evaluation, we show that our method can outperform the current state-of-the-art on three benchmark datasets. Our approach also consistently achieves the best unseen performance in the GZSL setting.


著者 Riti Paul,Sahil Vora,Baoxin Li
発行日 2023-09-13 14:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク