要約
現実世界のデータは一貫してロングテール分布を示し、多くの場合複数のカテゴリにまたがります。
この複雑さは、特に Long-Tailed Multi-Label 画像分類 (LTMLC) を必要とするシナリオにおいて、コンテンツ理解の課題を浮き彫りにします。
このような状況では、不均衡なデータ分散と複数オブジェクトの認識が大きな障害となります。
この問題に対処するために、私たちは、異なるカテゴリ間の意味論的相関を利用し、各カテゴリのカテゴリ固有の視覚表現を分離する、カテゴリプロンプト洗練特徴学習 (CPRFL) と呼ばれる、LTMLC のための新しく効果的なアプローチを提案します。
具体的には、CPRFL は、事前トレーニングされた CLIP の埋め込みからカテゴリ プロンプトを初期化し、視覚的特徴との相互作用を通じてカテゴリ固有の視覚表現を分離します。これにより、先頭クラスと末尾クラスの間の意味論的な相関関係の確立が容易になります。
視覚的意味論的ドメインのバイアスを軽減するために、プログレッシブ デュアルパス バックプロパゲーション メカニズムを設計し、コンテキスト関連の視覚情報をプロンプトに徐々に組み込むことでプロンプトを改良します。
同時に、改良プロセスは、改良されたプロンプトの指導の下で、カテゴリ固有の視覚表現の漸進的な精製を促進します。
さらに、ネガティブとポジティブのサンプルの不均衡を考慮して、非対称損失を最適化目標として採用し、すべてのクラスにわたってネガティブなサンプルを抑制し、頭から尾までの認識パフォーマンスを向上させる可能性があります。
私たちは 2 つの LTMLC ベンチマークで私たちの方法の有効性を検証し、広範な実験によってベースラインに対する私たちの研究の優位性が実証されました。
コードは https://github.com/jiexuanyan/CPRFL で入手できます。
要約(オリジナル)
Real-world data consistently exhibits a long-tailed distribution, often spanning multiple categories. This complexity underscores the challenge of content comprehension, particularly in scenarios requiring Long-Tailed Multi-Label image Classification (LTMLC). In such contexts, imbalanced data distribution and multi-object recognition pose significant hurdles. To address this issue, we propose a novel and effective approach for LTMLC, termed Category-Prompt Refined Feature Learning (CPRFL), utilizing semantic correlations between different categories and decoupling category-specific visual representations for each category. Specifically, CPRFL initializes category-prompts from the pretrained CLIP’s embeddings and decouples category-specific visual representations through interaction with visual features, thereby facilitating the establishment of semantic correlations between the head and tail classes. To mitigate the visual-semantic domain bias, we design a progressive Dual-Path Back-Propagation mechanism to refine the prompts by progressively incorporating context-related visual information into prompts. Simultaneously, the refinement process facilitates the progressive purification of the category-specific visual representations under the guidance of the refined prompts. Furthermore, taking into account the negative-positive sample imbalance, we adopt the Asymmetric Loss as our optimization objective to suppress negative samples across all classes and potentially enhance the head-to-tail recognition performance. We validate the effectiveness of our method on two LTMLC benchmarks and extensive experiments demonstrate the superiority of our work over baselines. The code is available at https://github.com/jiexuanyan/CPRFL.
arxiv情報
著者 | Jiexuan Yan,Sheng Huang,Nankun Mu,Luwen Huangfu,Bo Liu |
発行日 | 2024-08-15 12:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google