Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model within 0.5K Parameters

要約

大規模な事前トレーニング済みビジョン言語モデルの開発に伴い、特にデータ不足のシナリオにおいて、そのような基本モデルの知識を下流のタスクに効果的に転送する方法がホットな話題になります。
最近では、プロンプト チューニングが一般的なソリューションになっています。
視覚言語モデルを適応させるとき、研究者はバックボーン内のパラメータを固定し、プロンプトの設計と調整のみを行います。
一方で、素早いチューニングの繊細な設計が強力なパフォーマンスを発揮します。
一方で、複雑な構造と更新ルールにより、計算コストとストレージコストが大幅に増加します。
視覚言語モデルにおける汎化能力の進化パターンが、適応中のプロンプト行列のランク変動の傾向と調和して一致しているという観察に動機づけられて、新しいタイプのプロンプトである再パラメータ化低ランクプロンプト(RLP)を設計します。
、効率的かつ効果的な適応のために。
私たちの方法では、調整可能なパラメーターの数と記憶域スペースを大幅に削減できるため、リソースが限られたシナリオでは非常に有益です。
広範な実験により、RLP の優位性がさらに実証されました。
特に、RLP は、パラメーターの数が非常に少ない最新の最先端の手法と同等、またはそれ以上のパフォーマンスを示します。
11 データセットにわたる一連のタスクにおいて、RLP は、わずか 0.5K のパラメーターを使用して、従来のプロンプト チューニングの平均ダウンストリーム精度を最大 5.25% 大幅に向上させます。

要約(オリジナル)

With the development of large pre-trained vision-language models, how to effectively transfer the knowledge of such foundational models to downstream tasks becomes a hot topic, especially in a data-deficient scenario. Recently, prompt tuning has become a popular solution. When adapting the vision-language models, researchers freeze the parameters in the backbone and only design and tune the prompts. On the one hand, the delicate design of prompt tuning exhibits strong performance. On the other hand, complicated structures and update rules largely increase the computation and storage cost. Motivated by the observation that the evolution pattern of the generalization capability in visual-language models aligns harmoniously with the trend of rank variations in the prompt matrix during adaptation, we design a new type of prompt, Re-parameterized Low-rank Prompt (RLP), for both efficient and effective adaptation. Our method could largely reduce the number of tunable parameters and storage space, which is quite beneficial in resource-limited scenarios. Extensive experiments further demonstrate the superiority of RLP. In particular, RLP shows comparable or even stronger performance than the latest state-of-the-art methods with an extremely small number of parameters. On a series of tasks over 11 datasets, RLP significantly increases the average downstream accuracy of classic prompt tuning by up to 5.25% using merely 0.5K parameters.

arxiv情報

著者 Tianxiang Hao,Mengyao Lyu,Hui Chen,Sicheng Zhao,Jungong Han,Guiguang Ding
発行日 2023-12-17 20:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク