要約
ゼロショット学習 (ZSL) では、トレーニング中に見られなかったカテゴリを識別するという課題が生じます。
このタスクは、トレーニング データの収集にコストがかかる、禁止されている、または単純に不可能な領域では非常に重要です。
ZSL は、視覚空間と利用可能なセマンティック情報の間のマッピングに依存します。
以前の研究では、推論中に利用できる空間間のマッピングを学習しました。
しかし、私たちは、細心の注意を払って厳選された意味論的空間と現実世界のデータの本質的にノイズの多い性質との間の差異が、依然として重大かつ未解決の課題であると主張します。
このペーパーでは、Semantic Encoder-Enhanced Representations for Zero-Shot Learning (SEER-ZSL) を導入することでこの問題に対処します。
私たちは、一般化ギャップに対処するためのハイブリッド戦略を提案します。
まず、確率的エンコーダを使用して意味のある意味情報を抽出し、意味の一貫性と堅牢性を強化することを目指しています。
2 番目に、敵対的に訓練されたジェネレーターを通じて学習されたデータ分布を利用することで、視覚空間を抽出します。
最後に、抽出された情報を調整して、目に見えないカテゴリを真のデータ多様体にマッピングできるようにします。
このアプローチにより、小規模、中規模、および大規模なデータセットを含む多様な設定にわたる一般化とベンチマークの両方の点で、最先端のベンチマークを上回るパフォーマンスのモデルが得られることを経験的に示しています。
完全なコードは GitHub で入手できます。
要約(オリジナル)
Zero-Shot Learning (ZSL) presents the challenge of identifying categories not seen during training. This task is crucial in domains where it is costly, prohibited, or simply not feasible to collect training data. ZSL depends on a mapping between the visual space and available semantic information. Prior works learn a mapping between spaces that can be exploited during inference. We contend, however, that the disparity between meticulously curated semantic spaces and the inherently noisy nature of real-world data remains a substantial and unresolved challenge. In this paper, we address this by introducing a Semantic Encoder-Enhanced Representations for Zero-Shot Learning (SEER-ZSL). We propose a hybrid strategy to address the generalization gap. First, we aim to distill meaningful semantic information using a probabilistic encoder, enhancing the semantic consistency and robustness. Second, we distill the visual space by exploiting the learned data distribution through an adversarially trained generator. Finally, we align the distilled information, enabling a mapping of unseen categories onto the true data manifold. We demonstrate empirically that this approach yields a model that outperforms the state-of-the-art benchmarks in terms of both generalization and benchmarks across diverse settings with small, medium, and large datasets. The complete code is available on GitHub.
arxiv情報
著者 | William Heyden,Habib Ullah,M. Salman Siddiqui,Fadi Al Machot |
発行日 | 2025-01-06 11:15:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google