要約
ゼロショット学習(ZSL)は、見たクラスから見たことのないクラスへ、共有された意味的知識(例えば属性)を伝達することにより、新しいクラスを認識することを目的としている。近年、空間的な注意メカニズムを介して視覚的特徴と属性を整合させる注意ベースの手法が大きな進歩を遂げている。しかし、これらの手法は空間的次元における視覚的意味的関係を探索するだけであり、異なる属性が類似の注意領域を共有する場合に分類の曖昧さにつながる可能性があり、属性間の意味的関係が議論されることはほとんどない。上記の問題を緩和するために、我々は、より効果的な視覚的意味的相互作用を可能にし、知識伝達のための属性間の意味的関係を学習する二重関係マイニングネットワーク(DRMN)を提案する。具体的には、視覚-意味関係マイニングのためのデュアルアテンションブロック(DAB)を導入し、多レベル特徴融合により視覚情報を豊かにし、視覚から意味への埋め込みのための空間的アテンションを行う。さらに、属性誘導型チャネルアテンションは、絡み合った意味的特徴を切り離すために利用される。意味的関係のモデル化には、画像間の属性表現の汎化を強化するために、意味的相互作用変換器(Semantic Interaction Transformer: SIT)を利用する。さらに、人間が定義した意味属性を補完するものとして大域的な分類分岐を導入し、その結果を属性ベースの分類と組み合わせる。広範な実験により、提案するDRMNが、3つの標準的なZSLベンチマーク、すなわちCUB、SUN、AwA2において、新たな最先端性能につながることを実証する。
要約(オリジナル)
Zero-shot learning (ZSL) aims to recognize novel classes through transferring shared semantic knowledge (e.g., attributes) from seen classes to unseen classes. Recently, attention-based methods have exhibited significant progress which align visual features and attributes via a spatial attention mechanism. However, these methods only explore visual-semantic relationship in the spatial dimension, which can lead to classification ambiguity when different attributes share similar attention regions, and semantic relationship between attributes is rarely discussed. To alleviate the above problems, we propose a Dual Relation Mining Network (DRMN) to enable more effective visual-semantic interactions and learn semantic relationship among attributes for knowledge transfer. Specifically, we introduce a Dual Attention Block (DAB) for visual-semantic relationship mining, which enriches visual information by multi-level feature fusion and conducts spatial attention for visual to semantic embedding. Moreover, an attribute-guided channel attention is utilized to decouple entangled semantic features. For semantic relationship modeling, we utilize a Semantic Interaction Transformer (SIT) to enhance the generalization of attribute representations among images. Additionally, a global classification branch is introduced as a complement to human-defined semantic attributes, and we then combine the results with attribute-based classification. Extensive experiments demonstrate that the proposed DRMN leads to new state-of-the-art performances on three standard ZSL benchmarks, i.e., CUB, SUN, and AwA2.
arxiv情報
著者 | Jinwei Han,Yingguo Gao,Zhiwen Lin,Ke Yan,Shouhong Ding,Yuan Gao,Gui-Song Xia |
発行日 | 2024-05-06 16:31:19+00:00 |
arxivサイト | arxiv_id(pdf) |