Learning to Prompt Your Domain for Vision-Language Models

要約

プロンプト学習は、最近、Contrastive Language Image Pretraining (CLIP) モデルにとって非常に効率的な転移学習パラダイムとなっています。
エンコーダー全体を微調整する場合と比較して、プロンプト学習は少数のパラメーターのみを最適化することで非常に競争力の高い結果を得ることができ、これは通信効率を優先するフェデレーテッド ラーニング アプリケーションにとって非常に魅力的なメリットをもたらします。
ただし、この研究では、モデルにはさまざまなクライアント間でかなりの領域のギャップがあることが多いため、プロンプト学習アプローチをフェデレーテッド ラーニングに直接移行しても好ましい結果が得られないことがわかりました。
この問題に対処するために、フェデレーション参加者間でドメイン内およびドメイン間のプロンプトの両方を促進する、新しいドメイン認識型プロンプト学習アプローチである ADAPT を提案します。
ADAPT の基本的な考え方は、プロンプトされた CLIP がカテゴリの予測を行う前に、入力画像のドメイン対応を検出する必要があるということです。
ADAPT の広範な実験により、フェデレーテッド ラーニングにおける ADAPT の大幅な効率と有効性が実証されています。
たとえば、わずか 0.08M のパラメータを学習して共有することで、ADAPT は DomainNet データセット内の 6 つのドメインにわたって平均 68.4% の精度を達成し、元の CLIP を 14.8% という大幅な改善に導きます。

要約(オリジナル)

Prompt learning has recently become a very efficient transfer learning paradigm for Contrastive Language Image Pretraining (CLIP) models. Compared with fine-tuning the entire encoder, prompt learning can obtain highly competitive results by optimizing only a small number of parameters, which presents considerably exciting benefits for federated learning applications that prioritizes communication efficiency. However, in this work, we identify that directly transferring prompt learning approaches into federated learning does not yield favorable results since the model often suffers from considerable domain gaps across different clients. To address this issue, we propose ADAPT, a novel domain-aware prompt learning approach that facilitates both intra- and inter-domain prompts across federated participants. The basic idea of ADAPT is that the prompted CLIP should detect the input image’s domain correspondence and before making the prediction of its category. Extensive experiments of ADAPT demonstrate its significant efficiency and effectiveness in federated learning. For example, by learning and sharing only 0.08M parameters, our ADAPT attains a 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.

arxiv情報

著者 Guoyizhe Wei,Feng Wang,Anshul Shah,Rama Chellappa
発行日 2024-08-29 17:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク