要約
この論文では、マルチラベル シナリオ (MLZSL) におけるゼロショット学習の困難な問題を調査します。このモデルでは、既知のクラスと補助的な知識に基づいて、サンプル (画像など) 内の複数の未見のクラスを認識するようにモデルがトレーニングされます。
、意味情報。
既存の方法は通常、サンプル内に存在するさまざまな目に見えるクラスの関係を空間的または意味論的特性の次元から分析し、学習したモデルを目に見えないモデルに転送します。
しかし、それらはローカル機能とグローバル機能の効果的な統合を無視しています。
つまり、目に見えないクラスを推論するプロセスでは、グローバル特徴は特徴空間内の画像の主な方向を表しますが、ローカル特徴は特定の範囲内で一意性を維持する必要があります。
この統合された無視により、モデルは画像の主要なコンポーネントを把握できなくなります。
推論段階で認識されたクラスのローカルな存在のみに依存すると、避けられないバイアスが生じます。
この論文では、このような特性を最大限に活用し、より正確で堅牢な視覚的意味論的投影を可能にする、GBE-MLZSL と呼ばれる、MLZSL 用の新規で効果的なグループ二重強化フレームワークを提案します。
具体的には、特徴マップをいくつかの特徴グループに分割し、各特徴グループはローカル情報識別モジュール (LID) を使用して個別にトレーニングして一意性を確保できます。
一方、グローバル拡張モジュール (GEM) は、主な方向性を維持するように設計されています。
さらに、静的なグラフ構造は、局所的な特徴の相関関係を構築するように設計されています。
大規模な MLZSL ベンチマーク データセット NUS-WIDE および Open-Images-v4 での実験により、提案された GBE-MLZSL が他の最先端の方法よりも大きなマージンで優れたパフォーマンスを発揮することが実証されました。
要約(オリジナル)
This paper investigates a challenging problem of zero-shot learning in the multi-label scenario (MLZSL), wherein, the model is trained to recognize multiple unseen classes within a sample (e.g., an image) based on seen classes and auxiliary knowledge, e.g., semantic information. Existing methods usually resort to analyzing the relationship of various seen classes residing in a sample from the dimension of spatial or semantic characteristics, and transfer the learned model to unseen ones. But they ignore the effective integration of local and global features. That is, in the process of inferring unseen classes, global features represent the principal direction of the image in the feature space, while local features should maintain uniqueness within a certain range. This integrated neglect will make the model lose its grasp of the main components of the image. Relying only on the local existence of seen classes during the inference stage introduces unavoidable bias. In this paper, we propose a novel and effective group bi-enhancement framework for MLZSL, dubbed GBE-MLZSL, to fully make use of such properties and enable a more accurate and robust visual-semantic projection. Specifically, we split the feature maps into several feature groups, of which each feature group can be trained independently with the Local Information Distinguishing Module (LID) to ensure uniqueness. Meanwhile, a Global Enhancement Module (GEM) is designed to preserve the principal direction. Besides, a static graph structure is designed to construct the correlation of local features. Experiments on large-scale MLZSL benchmark datasets NUS-WIDE and Open-Images-v4 demonstrate that the proposed GBE-MLZSL outperforms other state-of-the-art methods with large margins.
arxiv情報
著者 | Ziming Liu,Jingcai Guo,Xiaocheng Lu,Song Guo,Peiran Dong,Jiewei Zhang |
発行日 | 2023-09-14 14:05:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google