Domain-Aware Continual Zero-Shot Learning

要約

現代の視覚システムには、種の発見の支援、野生動物の監視など、自然科学研究の視覚タスクにおいて幅広い潜在的な用途があります。
ただし、現実世界の視覚タスクでは環境条件の変化が発生し、キャプチャされた画像の表示方法が変化する可能性があります。
この問題に対処するために、継続的に変化するドメインで目に見えないカテゴリの画像を認識するタスクである、ドメイン認識継続ゼロショット学習 (DACZSL) を導入します。
したがって、私たちは、シフトするドメインの因数分解された特徴と、目に見えないクラスの改善されたテキスト表現を学習するためのドメインインバリアント ネットワーク (DIN) を提案します。
DIN は、ドメイン不変およびタスク不変の機能についてはグローバル共有ネットワークを、タスク固有の機能についてはタスクごとのプライベート ネットワークを継続的に学習します。
さらに、クラスごとの学習可能なプロンプトを使用してデュアル ネットワークを強化し、クラス レベルのテキスト表現を改善し、それによって将来の未確認クラスのゼロショット予測を改善します。
DACZSL を評価するために、DomainNet-CZSL と iWildCam-CZSL という 2 つのベンチマークを導入します。
私たちの結果は、DIN が既存のベースラインを高調波精度で 5% 以上、逆方向伝達で 1% 以上大幅に上回り、新しい SoTA を達成していることを示しています。

要約(オリジナル)

Modern visual systems have a wide range of potential applications in vision tasks for natural science research, such as aiding in species discovery, monitoring animals in the wild, and so on. However, real-world vision tasks may experience changes in environmental conditions, leading to shifts in how captured images are presented. To address this issue, we introduce Domain-Aware Continual Zero-Shot Learning (DACZSL), a task to recognize images of unseen categories in continuously changing domains. Accordingly, we propose a Domain-Invariant Network (DIN) to learn factorized features for shifting domains and improved textual representation for unseen classes. DIN continually learns a global shared network for domain-invariant and task-invariant features, and per-task private networks for task-specific features. Furthermore, we enhance the dual network with class-wise learnable prompts to improve class-level text representation, thereby improving zero-shot prediction of future unseen classes. To evaluate DACZSL, we introduce two benchmarks, DomainNet-CZSL and iWildCam-CZSL. Our results show that DIN significantly outperforms existing baselines by over 5% in harmonic accuracy and over 1% in backward transfer and achieves a new SoTA.

arxiv情報

著者 Kai Yi,Paul Janson,Wenxuan Zhang,Mohamed Elhoseiny
発行日 2024-03-12 14:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク