Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification

要約

画像セマンティクスを効果的に抽出し、自然画像の複数のオブジェクトまたは属性に対応するラベルを割り当てることは、シーンの内容が複雑でラベルの依存関係がわかりにくいため、困難です。
最近の研究は、グラフを使用したラベル関係のモデル化と、クラス アクティベーション マップ (CAM) を使用したオブジェクト領域の理解に焦点を当てています。
ただし、これらの方法では、特定の意味特徴間の複雑なカテゴリ内およびカテゴリ間の関係が無視され、CAM はノイズの多い情報を生成する傾向があります。
この目的を達成するために、サンプル間対比学習 (SSCL) とプロトタイプ対サンプル対比学習 (PSCL) を組み込んだ、新しいセマンティクスを意識したデュアル対比学習フレームワークを提案します。
具体的には、意味を意識した表現学習を活用して、カテゴリに関連する局所的な識別特徴を抽出し、カテゴリのプロトタイプを構築します。
次に、SSCL に基づいて、同じカテゴリのラベル レベルの視覚的表現が集約され、異なるカテゴリに属する​​フィーチャが分離されます。
一方、我々は、ポジティブサンプルとカテゴリープロトタイプ間の距離を狭め、ネガティブサンプルを対応するカテゴリープロトタイプから遠ざけるための新しいPSCLモジュールを構築します。
最後に、画像コンテンツに関連する識別ラベルレベルの特徴が、上記の 3 つの部分の共同トレーニングによって正確にキャプチャされます。
5 つの挑戦的な大規模公開データセットでの実験により、私たちが提案した方法が効果的であり、最先端の方法よりも優れていることが実証されました。
コードと補足資料は https://github.com/yu-gi-oh-leilei/SADCL で公開されています。

要約(オリジナル)

Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.

arxiv情報

著者 Leilei Ma,Dengdi Sun,Lei Wang,Haifeng Zhao,Bin Luo
発行日 2023-07-27 09:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク