Unsupervised Prototype Adapter for Vision-Language Models

要約

最近、大規模な事前トレーニング済み視覚言語モデル (CLIP や ALIGN など) が、転送可能な視覚表現の取得において顕著な効果を示しています。
これらのモデル内にエンコードされた貴重な知識を下流のタスクに活用するために、プロンプト チューニング方法やアダプター ベースの方法を含むいくつかの微調整アプローチが開発され、監視下でビジョン言語モデルを効果的に適応させています。
ただし、これらの方法は注釈付きサンプルの入手可能性に依存しているため、取得に労力と時間がかかる可能性があり、スケーラビリティが制限されます。
この問題に対処するために、この研究では、教師なしプロトタイプ アダプター (UP-Adapter) と呼ばれる、視覚言語モデルの教師なし微調整アプローチを設計します。
具体的には、アノテーションのないターゲット データセットの場合、CLIP のテキストと画像の位置合わせ機能を活用して、クラスごとに最も信頼性の高いサンプルを自動的に選択します。
これらの選択されたサンプルを利用して、学習可能なプロトタイプ モデルの初期化として機能するクラス プロトタイプを生成します。
微調整後、プロトタイプ モデルの予測は、残差接続によって元の CLIP の予測と結合され、下流の認識タスクが実行されます。
画像認識とドメイン一般化に関する広範な実験結果は、提案された教師なし手法が 8 ショット CoOp、8 ショット チップ アダプター、さらには最先端の UPL 手法よりも大幅に優れていることを示しています。

要約(オリジナル)

Recently, large-scale pre-trained vision-language models (e.g. CLIP and ALIGN) have demonstrated remarkable effectiveness in acquiring transferable visual representations. To leverage the valuable knowledge encoded within these models for downstream tasks, several fine-tuning approaches, including prompt tuning methods and adapter-based methods, have been developed to adapt vision-language models effectively with supervision. However, these methods rely on the availability of annotated samples, which can be labor-intensive and time-consuming to acquire, thus limiting scalability. To address this issue, in this work, we design an unsupervised fine-tuning approach for vision-language models called Unsupervised Prototype Adapter (UP-Adapter). Specifically, for the unannotated target datasets, we leverage the text-image aligning capability of CLIP to automatically select the most confident samples for each class. Utilizing these selected samples, we generate class prototypes, which serve as the initialization for the learnable prototype model. After fine-tuning, the prototype model prediction is combined with the original CLIP’s prediction by a residual connection to perform downstream recognition tasks. Our extensive experimental results on image recognition and domain generalization show that the proposed unsupervised method outperforms 8-shot CoOp, 8-shot Tip-Adapter, and also the state-of-the-art UPL method by large margins.

arxiv情報

著者 Yi Zhang,Ce Zhang,Xueting Hu,Zhihai He
発行日 2023-08-25 00:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク