Attribute Localization and Revision Network for Zero-Shot Learning

要約

ゼロショット学習により、モデルは属性などの補助的な意味情報を利用して、目に見えないカテゴリを認識できるようになります。
現在の研究では、ローカル画像領域から属性を検出し、抽出された特徴をクラスレベルのセマンティクスに合わせることが提案されています。
この論文では、ローカル特徴とグローバル特徴の間の選択はゼロサム ゲームではなく、グローバル特徴も属性の理解に貢献できることを発見しました。
さらに、属性機能をクラスレベルのセマンティクスに合わせると、潜在的なクラス内属性の変動が無視されます。
これらの欠点を軽減するために、この文書では属性ローカリゼーションとリビジョン ネットワークを紹介します。
まず、画像領域からローカルとグローバルの両方の特徴をキャプチャする属性ローカリゼーション モジュール (ALM) を設計します。スケール コントロール ユニットと呼ばれる新しいモジュールが、グローバルとローカルの表現を融合するために組み込まれています。
次に、属性改訂モジュール (ARM) を提案します。これは、各属性のグラウンド トゥルース値を改訂することでイメージ レベルのセマンティクスを生成し、クラス内の変動を無視することによって引き起こされるパフォーマンスの低下を補償します。
最後に、ALM の出力は、トレーニング プロセスを達成するために ARM によって生成された改訂されたセマンティクスと調整されます。
広く使用されている 3 つのベンチマークに関する包括的な実験結果は、ゼロショット予測タスクにおけるモデルの有効性を示しています。

要約(オリジナル)

Zero-shot learning enables the model to recognize unseen categories with the aid of auxiliary semantic information such as attributes. Current works proposed to detect attributes from local image regions and align extracted features with class-level semantics. In this paper, we find that the choice between local and global features is not a zero-sum game, global features can also contribute to the understanding of attributes. In addition, aligning attribute features with class-level semantics ignores potential intra-class attribute variation. To mitigate these disadvantages, we present Attribute Localization and Revision Network in this paper. First, we design Attribute Localization Module (ALM) to capture both local and global features from image regions, a novel module called Scale Control Unit is incorporated to fuse global and local representations. Second, we propose Attribute Revision Module (ARM), which generates image-level semantics by revising the ground-truth value of each attribute, compensating for performance degradation caused by ignoring intra-class variation. Finally, the output of ALM will be aligned with revised semantics produced by ARM to achieve the training process. Comprehensive experimental results on three widely used benchmarks demonstrate the effectiveness of our model in the zero-shot prediction task.

arxiv情報

著者 Junzhe Xu,Suling Duan,Chenwei Tang,Zhenan He,Jiancheng Lv
発行日 2023-10-11 14:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク