Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification


この複雑さは、特に Long-Tailed Multi-Label 画像分類 (LTMLC) を必要とするシナリオにおいて、コンテンツ理解の課題を浮き彫りにします。
この問題に対処するために、私たちは、異なるカテゴリ間の意味論的相関を利用し、各カテゴリのカテゴリ固有の視覚表現を分離する、カテゴリプロンプト洗練特徴学習 (CPRFL) と呼ばれる、LTMLC のための新しく効果的なアプローチを提案します。
具体的には、CPRFL は、事前トレーニングされた CLIP の埋め込みからカテゴリ プロンプトを初期化し、視覚的特徴との相互作用を通じてカテゴリ固有の視覚表現を分離します。これにより、先頭クラスと末尾クラスの間の意味論的な相関関係の確立が容易になります。
視覚的意味論的ドメインのバイアスを軽減するために、プログレッシブ デュアルパス バックプロパゲーション メカニズムを設計し、コンテキスト関連の視覚情報をプロンプトに徐々に組み込むことでプロンプトを改良します。
私たちは 2 つの LTMLC ベンチマークで私たちの方法の有効性を検証し、広範な実験によってベースラインに対する私たちの研究の優位性が実証されました。
コードは で入手できます。


Real-world data consistently exhibits a long-tailed distribution, often spanning multiple categories. This complexity underscores the challenge of content comprehension, particularly in scenarios requiring Long-Tailed Multi-Label image Classification (LTMLC). In such contexts, imbalanced data distribution and multi-object recognition pose significant hurdles. To address this issue, we propose a novel and effective approach for LTMLC, termed Category-Prompt Refined Feature Learning (CPRFL), utilizing semantic correlations between different categories and decoupling category-specific visual representations for each category. Specifically, CPRFL initializes category-prompts from the pretrained CLIP’s embeddings and decouples category-specific visual representations through interaction with visual features, thereby facilitating the establishment of semantic correlations between the head and tail classes. To mitigate the visual-semantic domain bias, we design a progressive Dual-Path Back-Propagation mechanism to refine the prompts by progressively incorporating context-related visual information into prompts. Simultaneously, the refinement process facilitates the progressive purification of the category-specific visual representations under the guidance of the refined prompts. Furthermore, taking into account the negative-positive sample imbalance, we adopt the Asymmetric Loss as our optimization objective to suppress negative samples across all classes and potentially enhance the head-to-tail recognition performance. We validate the effectiveness of our method on two LTMLC benchmarks and extensive experiments demonstrate the superiority of our work over baselines. The code is available at


著者 Jiexuan Yan,Sheng Huang,Nankun Mu,Luwen Huangfu,Bo Liu
発行日 2024-08-15 12:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク