Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels

要約

不完全なラベルを使用したマルチラベル認識 (MLR) は非常に困難です。
最近の研究では、不十分な注釈を補うために、視覚言語モデル、つまり CLIP における画像とラベルの対応関係を調査することに努めています。
有望なパフォーマンスにもかかわらず、彼らは通常、レーベル間の対応に関する貴重な事前情報を見逃しています。
この論文では、意味論的事前プロンプタを介してラベル間の対応に関する構造化された意味論的事前を導出することで、不完全なラベルによる MLR のラベル監視の欠陥を修正することを提唱します。
次に、構造化された意味論を徹底的に調査できる、新しい意味論的対応プロンプト ネットワーク (SCPNet) を紹介します。
事前強化自己教師あり学習方法は、事前の使用を強化するためにさらに導入されています。
広く使用されているいくつかのベンチマーク データセットでの包括的な実験と分析により、私たちの手法がすべてのデータセットで既存の手法よりも大幅に優れていることが示され、私たちの手法の有効性と優位性がよく実証されています。
私たちのコードは https://github.com/jameslahm/SCPNet で入手できます。

要約(オリジナル)

Multi-label recognition (MLR) with incomplete labels is very challenging. Recent works strive to explore the image-to-label correspondence in the vision-language model, \ie, CLIP, to compensate for insufficient annotations. In spite of promising performance, they generally overlook the valuable prior about the label-to-label correspondence. In this paper, we advocate remedying the deficiency of label supervision for the MLR with incomplete labels by deriving a structured semantic prior about the label-to-label correspondence via a semantic prior prompter. We then present a novel Semantic Correspondence Prompt Network (SCPNet), which can thoroughly explore the structured semantic prior. A Prior-Enhanced Self-Supervised Learning method is further introduced to enhance the use of the prior. Comprehensive experiments and analyses on several widely used benchmark datasets show that our method significantly outperforms existing methods on all datasets, well demonstrating the effectiveness and the superiority of our method. Our code will be available at https://github.com/jameslahm/SCPNet.

arxiv情報

著者 Zixuan Ding,Ao Wang,Hui Chen,Qiang Zhang,Pengzhang Liu,Yongjun Bao,Weipeng Yan,Jungong Han
発行日 2023-07-11 08:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク