要約
一般化ゼロショット学習(GZSL)は、セマンティック知識を表示クラスから非表示クラスに転送することにより、表示クラスと非表示クラスの両方からの画像を認識することを目的としています。
生成モデルを利用して、見られたクラスから学んだ知識に基づいて現実的な見えないサンプルを幻覚化することは、有望なソリューションです。
ただし、世代交代により、ほとんどの既存の方法で合成されたサンプルは、目に見えないデータの実際の分布から逸脱する可能性があります。
この問題に対処するために、目に見えないデータ生成を学習するための複数の条件付きアフィン結合層で構成される、新しいフローベースの生成フレームワークを提案します。
具体的には、世代交代を引き起こす3つの潜在的な問題、つまり、意味の不一致、分散の崩壊、構造の乱れを発見して対処します。
まず、生成されたサンプルでのセマンティック情報の反映を強化するために、各条件付きアフィン結合層の変換にセマンティック情報を明示的に埋め込みます。
次に、実際の見えない特徴の固有の分散を回復するために、エントロピー最大化を使用した境界サンプルマイニング戦略を導入して、セマンティックプロトタイプのより困難な視覚的バリアントを発見し、分類子の決定境界を調整します。
第三に、相対的な配置戦略が提案され、属性の埋め込みを修正し、クラス間の幾何学的構造を完全に保持し、意味空間での構造の乱れをさらに回避するように導きます。
4つのGZSLベンチマークデータセットに関する広範な実験結果は、GSMFlowがGZSLで最先端のパフォーマンスを達成していることを示しています。
要約(オリジナル)
Generalized Zero-Shot Learning (GZSL) aims to recognize images from both the seen and unseen classes by transferring semantic knowledge from seen to unseen classes. It is a promising solution to take the advantage of generative models to hallucinate realistic unseen samples based on the knowledge learned from the seen classes. However, due to the generation shifts, the synthesized samples by most existing methods may drift from the real distribution of the unseen data. To address this issue, we propose a novel flow-based generative framework that consists of multiple conditional affine coupling layers for learning unseen data generation. Specifically, we discover and address three potential problems that trigger the generation shifts, i.e., semantic inconsistency, variance collapse, and structure disorder. First, to enhance the reflection of the semantic information in the generated samples, we explicitly embed the semantic information into the transformation in each conditional affine coupling layer. Second, to recover the intrinsic variance of the real unseen features, we introduce a boundary sample mining strategy with entropy maximization to discover more difficult visual variants of semantic prototypes and hereby adjust the decision boundary of the classifiers. Third, a relative positioning strategy is proposed to revise the attribute embeddings, guiding them to fully preserve the inter-class geometric structure and further avoid structure disorder in the semantic space. Extensive experimental results on four GZSL benchmark datasets demonstrate that GSMFlow achieves the state-of-the-art performance on GZSL.
arxiv情報
著者 | Zhi Chen,Yadan Luo,Sen Wang,Jingjing Li,Zi Huang |
発行日 | 2022-07-08 09:11:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google