FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation

要約

視覚言語モデル(VLM)をダウンストリームタスクに適応させるために広く採用されているパラメーター効率の高い方法としての迅速な学習。
ハードプロンプト設計にはドメインの専門知識と反復最適化が必要ですが、ソフトプロムプト方法はタスク固有のハードラベルに大きく依存しており、一般化が目に見えないカテゴリに制限されます。
最近の一般的な蒸留ベースの迅速な学習方法は、より大きな教師VLMと監視されていない知識移転を活用することにより、一般化を改善しますが、彼らの繰り返しの教師モデルのオンライン推論は、迅速な学習の固有のトレーニング効率の利点を犠牲にします。
この論文では、{\ arger {\ textbf {f}}}} aster {\ large {\ textbf {d}}}}} iStillation-{{\ large {\ textbf {b}}}}} {{{\ text}} ased {\ large {p {p {} {p {} {p {}
{\ arger {\ textbf {l}}}}獲得(\ textbf {fdbpl})は、複数のトレーニング段階でソフト監督のコンテキストを共有し、加速I/oを実装することにより、これらの問題に対処します。
さらに、FDBPLは、マルチレベルの情報を含むランダムにトリミングされた領域を完全に活用するために、デュアルポジティブネガティブプロンプトスペースを備えた地域認識プロンプト学習パラダイムを導入します。
類似性差学的学習に基づいたポジティブネガティブなスペース相互学習メカニズムを提案し、生徒のクリップモデルが弱い関連する概念を拒否することを学習しながら正しいセマンティクスを認識し、それによってゼロショットのパフォーマンスを改善することを提案します。
一般化のためにパラメーター効率を犠牲にする既存の蒸留ベースの迅速な学習方法とは異なり、FDBPLはパラメーター効率と強力な下流の一般化の二重の利点を維持します。
11のデータセットにわたる包括的な評価は、基本から新しい一般化、クロスダタセット転送、および堅牢性テストの優れたパフォーマンスを示し、$ 2.2 \ Times $のトレーニング速度を高めることができます。

要約(オリジナル)

Prompt learning as a parameter-efficient method that has been widely adopted to adapt Vision-Language Models (VLMs) to downstream tasks. While hard-prompt design requires domain expertise and iterative optimization, soft-prompt methods rely heavily on task-specific hard labels, limiting their generalization to unseen categories. Recent popular distillation-based prompt learning methods improve generalization by exploiting larger teacher VLMs and unsupervised knowledge transfer, yet their repetitive teacher model online inference sacrifices the inherent training efficiency advantage of prompt learning. In this paper, we propose {{\large {\textbf{F}}}}aster {{\large {\textbf{D}}}}istillation-{{\large {\textbf{B}}}}ased {{\large {\textbf{P}}}}rompt {{\large {\textbf{L}}}}earning (\textbf{FDBPL}), which addresses these issues by sharing soft supervision contexts across multiple training stages and implementing accelerated I/O. Furthermore, FDBPL introduces a region-aware prompt learning paradigm with dual positive-negative prompt spaces to fully exploit randomly cropped regions that containing multi-level information. We propose a positive-negative space mutual learning mechanism based on similarity-difference learning, enabling student CLIP models to recognize correct semantics while learning to reject weakly related concepts, thereby improving zero-shot performance. Unlike existing distillation-based prompt learning methods that sacrifice parameter efficiency for generalization, FDBPL maintains dual advantages of parameter efficiency and strong downstream generalization. Comprehensive evaluations across 11 datasets demonstrate superior performance in base-to-new generalization, cross-dataset transfer, and robustness tests, achieving $2.2\times$ faster training speed.

arxiv情報

著者 Zherui Zhang,Jiaxin Wu,Changwei Wang,Rongtao Xu,Longzhao Huang,Wenhao Xu,Wenbo Xu,Li Guo,Shibiao Xu
発行日 2025-05-23 15:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク