要約
ゼロショット学習 (ZSL) は、セマンティック知識を目に見えるクラスから目に見えないクラスに移すことで、新しいクラス認識の問題に取り組みます。
既存の注意ベースのモデルは、視覚的特徴の伝達可能性と識別属性のローカリゼーションを無視する一方向の注意のみを使用して、単一の画像で下位領域の特徴を学習するのに苦労しています。
この論文では、TransZero++ と呼ばれるクロス属性ガイド付き Transformer ネットワークを提案して、視覚的特徴を改良し、ZSL のセマンティック拡張視覚的埋め込み表現の正確な属性ローカリゼーションを学習します。
TransZero++ は、attribute$\rightarrow$visual Transformer サブネット (AVT) と visual$\rightarrow$attribute Transformer サブネット (VAT) で構成されます。
具体的には、AVT は最初に機能拡張エンコーダーを使用してクロスデータセットの問題を軽減し、領域機能間の絡み合った相対的なジオメトリ関係を減らすことで視覚的機能の転送可能性を向上させます。
次に、attribute$\rightarrow$visual デコーダーを使用して、属性ベースの視覚的特徴表現のために、特定の画像内の各属性に最も関連する画像領域をローカライズします。
同様に、VAT は同様の機能拡張エンコーダーを使用して視覚的特徴を改良し、それをさらに visual$\rightarrow$attribute デコーダーに適用して視覚ベースの属性特徴を学習します。
さらにセマンティック コラボレーション ロスを導入することで、2 つの属性誘導トランスフォーマーは、セマンティック コラボレーション学習を介してセマンティック拡張視覚埋め込みを学習するように互いに教え合います。
広範な実験により、TransZero++ が 3 つの困難な ZSL ベンチマークで最先端の結果を達成したことが示されています。
コードは、\url{https://github.com/shiming-chen/TransZero_pp} で入手できます。
要約(オリジナル)
Zero-shot learning (ZSL) tackles the novel class recognition problem by transferring semantic knowledge from seen classes to unseen ones. Existing attention-based models have struggled to learn inferior region features in a single image by solely using unidirectional attention, which ignore the transferability and discriminative attribute localization of visual features. In this paper, we propose a cross attribute-guided Transformer network, termed TransZero++, to refine visual features and learn accurate attribute localization for semantic-augmented visual embedding representations in ZSL. TransZero++ consists of an attribute$\rightarrow$visual Transformer sub-net (AVT) and a visual$\rightarrow$attribute Transformer sub-net (VAT). Specifically, AVT first takes a feature augmentation encoder to alleviate the cross-dataset problem, and improves the transferability of visual features by reducing the entangled relative geometry relationships among region features. Then, an attribute$\rightarrow$visual decoder is employed to localize the image regions most relevant to each attribute in a given image for attribute-based visual feature representations. Analogously, VAT uses the similar feature augmentation encoder to refine the visual features, which are further applied in visual$\rightarrow$attribute decoder to learn visual-based attribute features. By further introducing semantical collaborative losses, the two attribute-guided transformers teach each other to learn semantic-augmented visual embeddings via semantical collaborative learning. Extensive experiments show that TransZero++ achieves the new state-of-the-art results on three challenging ZSL benchmarks. The codes are available at: \url{https://github.com/shiming-chen/TransZero_pp}.
arxiv情報
著者 | Shiming Chen,Ziming Hong,Wenjin Hou,Guo-Sen Xie,Yibing Song,Jian Zhao,Xinge You,Shuicheng Yan,Ling Shao |
発行日 | 2022-12-13 14:08:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google