Generative Multi-Label Zero-Shot Learning

要約

マルチラベルゼロショット学習は、トレーニング中にデータが利用できない複数の目に見えないカテゴリに画像を分類することを目的としています。
テスト サンプルには、一般化されたバリアントで確認されたカテゴリをさらに含めることができます。
既存のアプローチは、共有された注目またはラベル固有の注目を、表示されたクラスから学習することに依存しています。
それにもかかわらず、マルチラベル設定での推論中に、目に見えないクラスの信頼できるアテンション マップを計算することは依然として課題です。
対照的に、最先端の単一ラベル敵対的生成ネットワーク (GAN) ベースのアプローチは、対応するクラス属性の埋め込みからクラス固有の視覚的特徴を直接合成する方法を学習します。
ただし、ゼロショット設定の観点からは、GAN からのマルチラベル特徴の合成はまだ解明されていません。
この研究では、対応するマルチラベル クラスの埋め込みからマルチラベル特徴を合成するために、属性レベル、特徴レベル、およびクロスレベル (属性レベルと特徴レベルにまたがる) でのさまざまな融合アプローチを導入します。
私たちの知る限り、私たちの研究は、(一般化された)ゼロショット設定でのマルチラベル特徴合成の問題に初めて取り組んだものです。
包括的な実験は、NUS-WIDE、Open Images、MS COCO の 3 つのゼロショット画像分類ベンチマークで実行されます。
私たちのクロスレベル融合ベースの生成アプローチは、3 つのデータセットすべてで最先端のアプローチを上回ります。
さらに、MS COCO のゼロショット検出タスクにおける融合アプローチの一般化機能を示し、既存の方法に対して良好なパフォーマンスを達成します。
ソース コードは https://github.com/akshitac8/Generative_MLZSL で入手できます。

要約(オリジナル)

Multi-label zero-shot learning strives to classify images into multiple unseen categories for which no data is available during training. The test samples can additionally contain seen categories in the generalized variant. Existing approaches rely on learning either shared or label-specific attention from the seen classes. Nevertheless, computing reliable attention maps for unseen classes during inference in a multi-label setting is still a challenge. In contrast, state-of-the-art single-label generative adversarial network (GAN) based approaches learn to directly synthesize the class-specific visual features from the corresponding class attribute embeddings. However, synthesizing multi-label features from GANs is still unexplored in the context of zero-shot setting. In this work, we introduce different fusion approaches at the attribute-level, feature-level and cross-level (across attribute and feature-levels) for synthesizing multi-label features from their corresponding multi-label class embedding. To the best of our knowledge, our work is the first to tackle the problem of multi-label feature synthesis in the (generalized) zero-shot setting. Comprehensive experiments are performed on three zero-shot image classification benchmarks: NUS-WIDE, Open Images and MS COCO. Our cross-level fusion-based generative approach outperforms the state-of-the-art on all three datasets. Furthermore, we show the generalization capabilities of our fusion approach in the zero-shot detection task on MS COCO, achieving favorable performance against existing methods. The source code is available at https://github.com/akshitac8/Generative_MLZSL.

arxiv情報

著者 Akshita Gupta,Sanath Narayan,Salman Khan,Fahad Shahbaz Khan,Ling Shao,Joost van de Weijer
発行日 2023-07-31 14:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク