CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning

要約

ゼロショット学習 (ZSL) は、既知のカテゴリから未知のカテゴリへの意味論的な知識の伝達を活用することにより、新しいクラスの認識を可能にします。
この知識は通常、属性の説明にカプセル化されており、クラス固有の視覚的特徴を識別するのに役立ち、視覚的意味論的な調整が容易になり、ZSL のパフォーマンスが向上します。
ただし、インスタンス間の分布の不均衡や属性の同時発生などの現実世界の課題により、画像内の局所的な差異の識別が妨げられることが多く、この問題は、きめの細かい領域固有の属性アノテーションが不足していることでさらに悪化します。
さらに、カテゴリ内の視覚的表現のばらつきによって、属性とカテゴリの関連付けが歪む可能性もあります。
これに応えて、我々は双方向クロスモーダル ZSL アプローチ CREST を提案します。
まず、属性と視覚的ローカライゼーションの表現を抽出し、証拠深層学習 (EDL) を使用して根底にある認識論的不確実性を測定し、それによってハード ネガティブに対するモデルの回復力を強化します。
CREST には、視覚カテゴリと属性カテゴリの両方の調整に焦点を当てた二重学習経路が組み込まれており、潜在空間と観察可能な空間の間の堅牢な相関関係が保証されます。
さらに、視覚属性推論を洗練するために、不確実性情報に基づいたクロスモーダル融合手法を導入します。
広範な実験により、複数のデータセットにわたるモデルの有効性と独自の説明可能性が実証されています。
コードとデータは https://github.com/JethroJames/CREST で入手できます。

要約(オリジナル)

Zero-shot learning (ZSL) enables the recognition of novel classes by leveraging semantic knowledge transfer from known to unknown categories. This knowledge, typically encapsulated in attribute descriptions, aids in identifying class-specific visual features, thus facilitating visual-semantic alignment and improving ZSL performance. However, real-world challenges such as distribution imbalances and attribute co-occurrence among instances often hinder the discernment of local variances in images, a problem exacerbated by the scarcity of fine-grained, region-specific attribute annotations. Moreover, the variability in visual presentation within categories can also skew attribute-category associations. In response, we propose a bidirectional cross-modal ZSL approach CREST. It begins by extracting representations for attribute and visual localization and employs Evidential Deep Learning (EDL) to measure underlying epistemic uncertainty, thereby enhancing the model’s resilience against hard negatives. CREST incorporates dual learning pathways, focusing on both visual-category and attribute-category alignments, to ensure robust correlation between latent and observable spaces. Moreover, we introduce an uncertainty-informed cross-modal fusion technique to refine visual-attribute inference. Extensive experiments demonstrate our model’s effectiveness and unique explainability across multiple datasets. Our code and data are available at: https://github.com/JethroJames/CREST.

arxiv情報

著者 Haojian Huang,Xiaozhen Qiao,Zhuo Chen,Haodong Chen,Bingyu Li,Zhe Sun,Mulin Chen,Xuelong Li
発行日 2024-04-16 03:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク