Learning Generalizable Prompt for CLIP with Class Similarity Knowledge

要約

Vision-Language Models(VLMS)では、迅速なチューニングにより、モデルを下流タスクに適応させる効果が示されています。
しかし、迅速な調整中にターゲットを絞ったクラスに過剰にでもきつける傾向があるため、目に見えないクラスに一般化するために、学んだプロンプトは一般化するのに苦労しています。
障害のケースを調べると、学習されたプロンプトは、目に見えないクラスのセマンティクスを混乱させ、クラス間の誤ったセマンティック関係を持つテキスト埋め込みを生成することが観察されました。
これに対処するために、類似性アラインメント正規化(SAR)を提案します。これにより、手作りのプロンプトがキャプチャされたクラス間のセマンティック関係を維持するための学習可能なプロンプトを正規化します。
具体的には、最初にCHATGPT-4Oを使用してベースクラスに関連する新しいクラスを取得し、迅速な調整中に潜在的な目に見えないクラスとしてそれらを利用します。
次に、ベースクラスと新しいクラスの両方をターゲットにすることにより、SARは、手作りのプロンプトからの類似性の関係を持つ学習可能なプロンプトによって生成されるテキスト埋め込み間の類似性の関係を調整します。
既存の迅速な調整方法にSARを適用する広範な実験は、目に見えないクラスへの一般化を改善する上でその有効性を示しています。

要約(オリジナル)

In vision-language models (VLMs), prompt tuning has shown its effectiveness in adapting models to downstream tasks. However, learned prompts struggle to generalize to unseen classes, as they tend to overfit to the classes that are targeted during prompt tuning. Examining failure cases, we observed that learned prompts disrupt the semantics of unseen classes, generating text embeddings with incorrect semantic relationships among classes. To address this, we propose Similarity Alignment Regularization (SAR), which regularizes learnable prompts to preserve the semantic relationships among classes captured by hand-crafted prompts. Specifically, we first obtain novel classes related to base classes using ChatGPT-4o and utilize them as potential unseen classes during prompt tuning. Then, by targeting both base and novel classes, SAR aligns the similarity relationships among text embeddings generated by learnable prompts with the similarity relationships from hand-crafted prompts. Extensive experiments applying SAR to existing prompt tuning methods demonstrate its effectiveness in improving generalization to unseen classes.

arxiv情報

著者 Sehun Jung,Hyang-won Lee
発行日 2025-02-17 16:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク