When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective

要約

事前トレーニングされたモデルを新しいタスクに適応させると、データセットごとに異なる効果が現れる可能性があります。
最先端のパラメータ効率の高い転移学習手法であるビジュアル プロンプトは、分散外タスクのパフォーマンスを大幅に向上させることができます。
一方で、標準的な転移学習手法である線形プローブが最良のアプローチとなる場合もあります。
視覚的なプロンプトと線形プロービングの比較利点を分析するために、対数尤度比 (LLR) アプローチを提案します。
リソース効率の高い視覚的プロンプト近似とともに LLR スコアを採用することで、費用対効果の高い測定により、完全なトレーニングと比較して実行時間を最大 100 倍削減すると同時に、最大 91% の予測精度を達成します。
ソース コードは https://github.com/IBM/VP-LLR で入手できます。

要約(オリジナル)

Adapting pre-trained models to new tasks can exhibit varying effectiveness across datasets. Visual prompting, a state-of-the-art parameter-efficient transfer learning method, can significantly improve the performance of out-of-distribution tasks. On the other hand, linear probing, a standard transfer learning method, can sometimes become the best approach. We propose a log-likelihood ratio (LLR) approach to analyze the comparative benefits of visual prompting and linear probing. By employing the LLR score alongside resource-efficient visual prompts approximations, our cost-effective measure attains up to a 100-fold reduction in run time compared to full training, while achieving prediction accuracies up to 91%. The source code is available at https://github.com/IBM/VP-LLR.

arxiv情報

著者 Hsi-Ai Tsao,Lei Hsiung,Pin-Yu Chen,Tsung-Yi Ho
発行日 2024-09-04 12:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク