要約
画像テキストファンデーションモデルは、多様なダウンストリームタスク全体で成功していますが、入力とラベルの間に偽の相関が存在する場合、依然として課題に直面しています。
この問題に対処するために、グループ注釈に頼らずにファンデーションモデルのパラメーター効率の高い微調整を可能にする、単純な3段階のアプローチであるプロジェクトプローブアグゲート(PPA)を提案します。
障害ベースの衰弱スキームに基づいて、当社のメソッドであるPPAは、その2つの重要なコンポーネントを改善します。マイノリティサンプル識別と堅牢なトレーニングアルゴリズムです。
具体的には、最初に、テキストエンコーダのクラスプロキシのnullspaceに画像機能を投影することにより、偏った分類器を訓練します。
次に、偏った分類器とプローブグループのターゲットを使用して、以前の修正を行うグループラベルを推測します。
最後に、各クラスのグループ重みを集約して、紛争分類器を生成します。
当社の理論分析は、PPAがマイノリティグループの識別を強化し、バランスの取れたグループエラーを最小限に抑えるのに最適なベイズであることを示しています。
広範な実験結果は、PPAの有効性を確認します。これは、トレーニンググループラベルなしで0.01%未満の調整可能なパラメーターを必要としながら、平均最悪のグループの精度で最先端を上回ります。
要約(オリジナル)
While image-text foundation models have succeeded across diverse downstream tasks, they still face challenges in the presence of spurious correlations between the input and label. To address this issue, we propose a simple three-step approach,Project-Probe-Aggregate (PPA), that enables parameter-efficient fine-tuning for foundation models without relying on group annotations. Building upon the failure-based debiasing scheme, our method, PPA, improves its two key components: minority samples identification and the robust training algorithm. Specifically, we first train biased classifiers by projecting image features onto the nullspace of class proxies from text encoders. Next, we infer group labels using the biased classifier and probe group targets with prior correction. Finally, we aggregate group weights of each class to produce the debiased classifier. Our theoretical analysis shows that our PPA enhances minority group identification and is Bayes optimal for minimizing the balanced group error, mitigating spurious correlations. Extensive experimental results confirm the effectiveness of our PPA: it outperforms the state-of-the-art by an average worst-group accuracy while requiring less than 0.01% tunable parameters without training group labels.
arxiv情報
著者 | Beier Zhu,Jiequan Cui,Hanwang Zhang,Chi Zhang |
発行日 | 2025-03-12 15:46:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google