SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning

要約

一般化ゼロショット学習 (GZSL) は、視覚データとセマンティック データの間の固有の相互作用に応じて、目に見えるクラスから知識を転送することによって、目に見えないクラスを認識します。
ただし、十分に準備されたトレーニング データと予測不可能な現実世界のテスト シナリオとの間の矛盾は依然として大きな課題です。
このペーパーでは、一般化ギャップに対処するための 2 つの戦略を紹介します。
まず、革新的なエンコーダーを通じて意味情報を組み込みます。
このエンコーダーは、パフォーマンスの差異をターゲットにしてクラス固有のセマンティック情報を効果的に統合し、生成された機能を強化してクラス固有の属性のセマンティック空間を強化します。
次に、新しい組成損失関数を使用して生成機能を改良します。
このアプローチは識別クラスを生成し、目に見えるクラスと見えないクラスの両方を効果的に分類します。
さらに、制御されたセマンティック入力を利用することで学習された潜在空間の活用を拡張し、さまざまな環境におけるモデルの堅牢性を確保します。
このアプローチにより、特にハイパーパラメーターの調整やドメイン固有の適応を必要とせずに、一般化と多様な設定の両方の点で最先端のモデルを上回るパフォーマンスのモデルが得られます。
また、結果の信頼性と再現性をより詳細に評価するための一連の新しい評価指標も提案します。
完全なコードは https://github.com/william-heyden/SEER-ZeroShotLearning/ で入手できます。

要約(オリジナル)

Generalized Zero-Shot Learning (GZSL) recognizes unseen classes by transferring knowledge from the seen classes, depending on the inherent interactions between visual and semantic data. However, the discrepancy between well-prepared training data and unpredictable real-world test scenarios remains a significant challenge. This paper introduces a dual strategy to address the generalization gap. Firstly, we incorporate semantic information through an innovative encoder. This encoder effectively integrates class-specific semantic information by targeting the performance disparity, enhancing the produced features to enrich the semantic space for class-specific attributes. Secondly, we refine our generative capabilities using a novel compositional loss function. This approach generates discriminative classes, effectively classifying both seen and unseen classes. In addition, we extend the exploitation of the learned latent space by utilizing controlled semantic inputs, ensuring the robustness of the model in varying environments. This approach yields a model that outperforms the state-of-the-art models in terms of both generalization and diverse settings, notably without requiring hyperparameter tuning or domain-specific adaptations. We also propose a set of novel evaluation metrics to provide a more detailed assessment of the reliability and reproducibility of the results. The complete code is made available on https://github.com/william-heyden/SEER-ZeroShotLearning/.

arxiv情報

著者 William Heyden,Habib Ullah,M. Salman Siddiqui,Fadi Al Machot
発行日 2023-12-20 15:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク