Towards Compatible Fine-tuning for Vision-Language Model Updates

要約

これまでのところ、プラグ アンド プレイ モジュールを学習することで、下流タスクの基礎モデルの機能を強化するための効率的な微調整が一般的な戦略となっています。
しかし、既存の方法では重要な問題が見落とされています。それは、基礎となる基盤モデルが更新された場合でも、これらのプラグ アンド プレイ モジュールは引き続き有効かということです。
このペーパーでは、まず、モデル更新との互換性の観点から、CLIP 上のさまざまな微調整方法の詳細な分析を実行します。
この調査では、多くの高性能な微調整方法がアップグレードされたモデルと互換性がないことが明らかになりました。
これに対処するために、私たちは新しいアプローチであるクラス条件付きコンテキスト最適化 (ContCoOp) を提案します。これは、学習可能なプロンプトをテキスト エンコーダーに入力する前にアテンション レイヤーを使用してクラスの埋め込みと統合します。
その結果、プロンプトは(モデルの更新による)埋め込み空間の変化に動的に適応し、継続的な有効性を確保できます。
15 のデータセットにわたる広範な実験により、ContCoOp がベースライン手法と比較して最も高い互換性を達成し、堅牢な分布外一般化を示すことが示されました。

要約(オリジナル)

So far, efficient fine-tuning has become a popular strategy for enhancing the capabilities of foundation models on downstream tasks by learning plug-and-play modules. However, existing methods overlook a crucial issue: if the underlying foundation model is updated, are these plug-and-play modules still effective? In this paper, we first conduct a detailed analysis of various fine-tuning methods on the CLIP in terms of their compatibility with model updates. The study reveals that many high-performing fine-tuning methods fail to be compatible with the upgraded models. To address this, we propose a novel approach, Class-conditioned Context Optimization (ContCoOp), which integrates learnable prompts with class embeddings using an attention layer before inputting them into the text encoder. Consequently, the prompts can dynamically adapt to the changes in embedding space (due to model updates), ensuring continued effectiveness. Extensive experiments over 15 datasets show that our ContCoOp achieves the highest compatibility over the baseline methods, and exhibits robust out-of-distribution generalization.

arxiv情報

著者 Zhengbo Wang,Jian Liang,Lijun Sheng,Ran He,Zilei Wang,Tieniu Tan
発行日 2024-12-30 12:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク