要約
視覚言語モデル (VLM) は、目に見えないタスクに対して顕著なゼロショット汎化を示しますが、データが限られている下流タスクへの汎化においては教師あり手法のパフォーマンスには及ばません。
即時学習は、VLM を適応させるためのパラメーター効率の高い方法として浮上していますが、最先端のアプローチには注釈付きのサンプルが必要です。
この論文では、より強力なモデルからの教師なし知識の蒸留に基づいて学習を促進するための新しいアプローチを提案します。
知識蒸留プロンプト学習 (KDPL) と呼ばれる私たちのアプローチは、既存のプロンプト学習手法に統合でき、適応中にラベル付きの例を使用する必要がなくなります。
10 を超える標準ベンチマーク データセットでの実験では、KDPL が、ゼロ ショット ドメイン一般化、ゼロ ショット データセット間一般化、およびゼロ ショットベースから新規クラスへの一般化問題に対する学習されたプロンプトの一般化を改善するのに非常に効果的であることが実証されました。
KDPL は適応にグラウンドトゥルース ラベルを必要としません。さらに、トレーニング クラス名の知識がない場合でも、KDPL を使用して知識を効果的に伝達できることを示します。
コードは https://github.com/miccunifi/KDPL で公開されています。
要約(オリジナル)
Vision-Language Models (VLMs) demonstrate remarkable zero-shot generalization to unseen tasks, but fall short of the performance of supervised methods in generalizing to downstream tasks with limited data. Prompt learning is emerging as a parameter-efficient method for adapting VLMs, but state-of-the-art approaches require annotated samples. In this paper we propose a novel approach to prompt learning based on unsupervised knowledge distillation from more powerful models. Our approach, which we call Knowledge Distillation Prompt Learning (KDPL), can be integrated into existing prompt learning techniques and eliminates the need for labeled examples during adaptation. Our experiments on more than ten standard benchmark datasets demonstrate that KDPL is very effective at improving generalization of learned prompts for zero-shot domain generalization, zero-shot cross-dataset generalization, and zero-shot base-to-novel class generalization problems. KDPL requires no ground-truth labels for adaptation, and moreover we show that even in the absence of any knowledge of training class names it can be used to effectively transfer knowledge. The code is publicly available at https://github.com/miccunifi/KDPL.
arxiv情報
著者 | Marco Mistretta,Alberto Baldrati,Marco Bertini,Andrew D. Bagdanov |
発行日 | 2024-07-30 11:56:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google