StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

要約

データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、クリップなどの最近のゼロショットモデルの成功につながりました。
ただし、得られた堅牢性は、これらのモデルが他のダウンストリームタスク(たとえば、スケールなど)で微調整されると簡単に劣化できます。
以前の作品は、ドメインシフトのコンテキストでこの現象をしばしば解釈し、可能な限り元のドメインを保存することを目的とした微調整方法を開発します。
ただし、別のコンテキストでは、データが限られている微調整されたモデルは、背景やテクスチャなど、人間に偽の学習機能にもなりやすくなります。
この論文では、Starft(Smolious Textual Alignment Resulization)を提案します。これは、ゼロショットモデルを微調整するための新しいフレームワークであり、それらがスプリオシティを学ぶのを防ぐことで堅牢性を高めることです。
Spuriosity注入ラベルの出力分布を元のZero-Shotモデルと並べる正規化を導入し、これらの記述から無関係な特徴をさらに抽出するようにモデルが誘導されないようにします。
最近の言語モデルを活用して、潜在的に交絡する機能を強調する代替テキストの説明を生成することにより、そのようなspuriosity注入ラベルを取得します。
広範な実験では、Starftとその新たな特性の堅牢な一般化を検証します:ゼロショットグループの堅牢性と改善されたゼロショット分類。
特に、Starftは、Waterbirds Group Shiftシナリオで、最悪のグループと平均精度の両方をそれぞれ14.30%と3.02%増加させます。

要約(オリジナル)

Learning robust representations from data often requires scale, which has led to the success of recent zero-shot models such as CLIP. However, the obtained robustness can easily be deteriorated when these models are fine-tuned on other downstream tasks (e.g., of smaller scales). Previous works often interpret this phenomenon in the context of domain shift, developing fine-tuning methods that aim to preserve the original domain as much as possible. However, in a different context, fine-tuned models with limited data are also prone to learning features that are spurious to humans, such as background or texture. In this paper, we propose StarFT (Spurious Textual Alignment Regularization), a novel framework for fine-tuning zero-shot models to enhance robustness by preventing them from learning spuriosity. We introduce a regularization that aligns the output distribution for spuriosity-injected labels with the original zero-shot model, ensuring that the model is not induced to extract irrelevant features further from these descriptions. We leverage recent language models to get such spuriosity-injected labels by generating alternative textual descriptions that highlight potentially confounding features. Extensive experiments validate the robust generalization of StarFT and its emerging properties: zero-shot group robustness and improved zero-shot classification. Notably, StarFT boosts both worst-group and average accuracy by 14.30% and 3.02%, respectively, in the Waterbirds group shift scenario, where other robust fine-tuning baselines show even degraded performance.

arxiv情報

著者 Younghyun Kim,Jongheon Jeong,Sangkyung Kwak,Kyungmin Lee,Juho Lee,Jinwoo Shin
発行日 2025-05-20 12:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク