Logits DeConfusion with CLIP for Few-Shot Learning

要約

強力な視覚言語アライメント機能を備えたClipは、ゼロショットと少ないショットの学習タスクでうまく機能します。
ただし、Clipのロジットは、下流タスクにおけるクラス間の深刻な混乱の問題に悩まされており、カテゴリ間の曖昧さが精度に深刻な影響を与えることが実験で発見されました。
この課題に対処するために、ロジットデコンフュージョンと呼ばれる新しい方法を提案します。これは、マルチレベルアダプター融合(MAF)モジュールとクラス間デコンフュージョン(ICD)モジュールを組み合わせることにより、ロジットのクラス間混乱を効果的に学習および排除します。
私たちのMAFは、異なるレベルの特徴を抽出し、それらを均一に融合して、特徴表現を強化します。
私たちのICDは、残留構造でロジットのクラス間の混乱を学習的に排除します。
実験結果は、この方法が分類パフォーマンスを大幅に改善し、クラス間の混乱の問題を軽減できることを示しています。
このコードはhttps://github.com/lishuo1001/ldcで入手できます。

要約(オリジナル)

With its powerful visual-language alignment capability, CLIP performs well in zero-shot and few-shot learning tasks. However, we found in experiments that CLIP’s logits suffer from serious inter-class confusion problems in downstream tasks, and the ambiguity between categories seriously affects the accuracy. To address this challenge, we propose a novel method called Logits DeConfusion, which effectively learns and eliminates inter-class confusion in logits by combining our Multi-level Adapter Fusion (MAF) module with our Inter-Class Deconfusion (ICD) module. Our MAF extracts features from different levels and fuses them uniformly to enhance feature representation. Our ICD learnably eliminates inter-class confusion in logits with a residual structure. Experimental results show that our method can significantly improve the classification performance and alleviate the inter-class confusion problem. The code is available at https://github.com/LiShuo1001/LDC.

arxiv情報

著者 Shuo Li,Fang Liu,Zehua Hao,Xinyi Wang,Lingling Li,Xu Liu,Puhua Chen,Wenping Ma
発行日 2025-04-16 14:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク