Distilled Reverse Attention Network for Open-world Compositional Zero-Shot Learning

要約

Open-World Compositional Zero-Shot Learning (OW-CZSL) は、見た属性とオブジェクトの新しい構成を認識することを目的としています。
OW-CZSL では、制約のない OW テスト空間が原因で、従来のクローズド ワールド設定に基づいて構築されたメソッドが大幅に劣化します。
以前の研究では、外部の知識または見られたペアの相関関係に従って構成を剪定することによって問題を軽減しましたが、一般化を損なうバイアスが導入されました。
したがって、いくつかの方法は、属性が高度にコンテキストに依存し、オブジェクトと視覚的に絡み合っていることを無視して、個別に構築およびトレーニングされた分類子を使用して状態とオブジェクトを予測します。
この論文では、課題に対処するための新しい Distilled Reverse Attention Network を提案します。
また、属性とオブジェクトを別々にモデル化しますが、動機は異なり、それぞれ文脈性と局所性を捉えます。
さらに、逆アテンションと知識蒸留によって管理されたトレーニング データ内の基本コンポーネントのもつれを解く表現を学習する、逆蒸留戦略を設計します。
3 つのデータセットで実験を行い、一貫して最先端 (SOTA) のパフォーマンスを達成しています。

要約(オリジナル)

Open-World Compositional Zero-Shot Learning (OW-CZSL) aims to recognize new compositions of seen attributes and objects. In OW-CZSL, methods built on the conventional closed-world setting degrade severely due to the unconstrained OW test space. While previous works alleviate the issue by pruning compositions according to external knowledge or correlations in seen pairs, they introduce biases that harm the generalization. Some methods thus predict state and object with independently constructed and trained classifiers, ignoring that attributes are highly context-dependent and visually entangled with objects. In this paper, we propose a novel Distilled Reverse Attention Network to address the challenges. We also model attributes and objects separately but with different motivations, capturing contextuality and locality, respectively. We further design a reverse-and-distill strategy that learns disentangled representations of elementary components in training data supervised by reverse attention and knowledge distillation. We conduct experiments on three datasets and consistently achieve state-of-the-art (SOTA) performance.

arxiv情報

著者 Yun Li,Zhe Liu,Saurav Jha,Sally Cripps,Lina Yao
発行日 2023-03-01 10:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク