Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation

要約

パラメータ効率の良い微調整 (PEFT) 手法は、大規模なビジョン言語モデルを特定のタスクやシナリオに適応させるための効果的な方法を提供してきました。
通常、ホワイトボックス定式化では、事前トレーニングされたモデルの非常に小規模なパラメータを学習します。この定式化では、モデルのアーキテクチャが既知であり、パラメータがアクセス可能であることが前提となります。
ただし、大規模なモデルは悪用防止や商業的要因を考慮してオープンソースではないことが多く、そのためホワイトボックス PEFT 手法の導入に障壁となっています。
モデルのアクセシビリティへの依存を軽減するために、テキスト プロンプトの最適化とブラック ボックス モデルの出力機能の適応の両方に協調的ブラック ボックス チューニング (CBBT) を導入します。
具体的には、バックプロパゲーション勾配がブロックされていることを考慮して、摂動プロンプトを使用して予測を分析することでテキスト プロンプトの勾配を近似します。
次に、アクセスできないモデルの出力フィーチャー上に軽量アダプターがデプロイされ、モデル適応プロセスがさらに容易になります。
これらの設計を活用した当社の CBBT は 11 の下流ベンチマークで広範囲に評価され、既存のブラックボックス VL 適応手法と比較して顕著な改善を達成しています。
コードは https://github.com/guozix/cbbt で公開されています。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) methods have provided an effective way for adapting large vision-language models to specific tasks or scenarios. Typically, they learn a very small scale of parameters for pre-trained models in a white-box formulation, which assumes model architectures to be known and parameters to be accessible. However, large models are often not open-source due to considerations of preventing abuse or commercial factors, hence posing a barrier to the deployment of white-box PEFT methods. To alleviate the dependence on model accessibility, we introduce collaborative black-box tuning (CBBT) for both textual prompt optimization and output feature adaptation for black-box models. Specifically, considering that the backpropagation gradients are blocked, we approximate the gradients of textual prompts by analyzing the predictions with perturbed prompts. Secondly, a lightweight adapter is deployed over the output feature of the inaccessible model, further facilitating the model adaptation process. Empowered with these designs, our CBBT is extensively evaluated on eleven downstream benchmarks and achieves remarkable improvements compared to existing black-box VL adaptation methods. Code is released at https://github.com/guozix/cbbt.

arxiv情報

著者 Zixian Guo,Yuxiang Wei,Ming Liu,Zhilong Ji,Jinfeng Bai,Yiwen Guo,Wangmeng Zuo
発行日 2023-12-26 06:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク