Semantic Representation and Dependency Learning for Multi-Label Image Recognition

要約

近年、多くのマルチラベル画像認識(MLR)が、事前学習された物体検出モデルを導入して多数の提案を生成したり、統計的ラベル共起を利用して異なるカテゴリ間の相関を強化することにより、大きな進歩を遂げている。しかし、これらの研究では、(1)ネットワークの有効性は、高価で手頃でない計算をもたらす事前学習済み物体検出モデルに大きく依存する、(2)画像中に時々共起する物体がある場合、特に稀なカテゴリに対してネットワークの性能が低下する、などの制限がある。これらの問題に対処するため、我々は、各カテゴリに特化した意味表現を学習し、全カテゴリ間の意味依存関係を捉える、新規かつ効果的な意味表現・依存学習(SRDL)フレームワークを提案する。具体的には、意味認識領域に焦点を当てるようモデルを誘導するために、チャンネル/空間単位の注意行列を生成するカテゴリー特異的注意領域(CAR)モジュールを設計する。また、意味認識領域を消去することでカテゴリ間の意味依存性を暗黙的に学習し、ネットワーク学習を正則化するオブジェクト消去(OE)モジュールも設計した。2つの有名なMLRベンチマークデータセット(MS-COCOとPascal VOC 2007)を用いた広範な実験と比較により、提案フレームワークが現在の最先端アルゴリズムよりも有効であることを実証する。

要約(オリジナル)

Recently many multi-label image recognition (MLR) works have made significant progress by introducing pre-trained object detection models to generate lots of proposals or utilizing statistical label co-occurrence enhance the correlation among different categories. However, these works have some limitations: (1) the effectiveness of the network significantly depends on pre-trained object detection models that bring expensive and unaffordable computation; (2) the network performance degrades when there exist occasional co-occurrence objects in images, especially for the rare categories. To address these problems, we propose a novel and effective semantic representation and dependency learning (SRDL) framework to learn category-specific semantic representation for each category and capture semantic dependency among all categories. Specifically, we design a category-specific attentional regions (CAR) module to generate channel/spatial-wise attention matrices to guide model to focus on semantic-aware regions. We also design an object erasing (OE) module to implicitly learn semantic dependency among categories by erasing semantic-aware regions to regularize the network training. Extensive experiments and comparisons on two popular MLR benchmark datasets (i.e., MS-COCO and Pascal VOC 2007) demonstrate the effectiveness of the proposed framework over current state-of-the-art algorithms.

arxiv情報

著者 Tao Pu,Mingzhan Sun,Hefeng Wu,Tianshui Chen,Ling Tian,Liang Lin
発行日 2023-01-09 15:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク