Does Combining Parameter-efficient Modules Improve Few-shot Transfer Accuracy?

要約

パラメーター効率の高い微調整は、下流タスクで大規模な言語モデルと視覚モデルを効率的に微調整するための標準として機能します。
具体的には、低ランク適応の効率により、数百のカスタム LoRA モジュールの作成と共有が容易になり、それぞれがさまざまな下流タスクからの個別のデータに基づいてトレーニングされています。
このペーパーでは、LoRA モジュールの構成可能性を調査し、これらの事前トレーニングされたモジュールを組み合わせることで、目に見えない下流タスクへの一般化が強化されるかどうかを検証します。
私たちの調査には、2 つのアプローチの評価が含まれます。(a) 均一な構成。上流の LoRA モジュールを等しい重みで平均すること。(b) 学習された構成。各上流モジュールの重みを学習し、加重平均を実行します。
視覚モデルと言語モデルの両方に関する実験結果は、下流のタスクに限られた数のサンプルしか利用できない少数ショット設定では、均一な合成方法と学習された合成方法の両方がより良い転送精度をもたらすことを明らかにしました。
LoRA をゼロから完全に微調整してトレーニングするよりも優れたパフォーマンスを発揮します。
さらに、フルショット設定では、学習された構成は、トレーニング可能なパラメータの数が大幅に少なくても、通常の LoRA トレーニングと同等に機能します。
私たちの研究は、追加の学習可能なパラメーターを導入することなく、ローショット設定での転写性を高めるための均一な組成の可能性を明らかにしました。

要約(オリジナル)

Parameter-efficient fine-tuning stands as the standard for efficiently fine-tuning large language and vision models on downstream tasks. Specifically, the efficiency of low-rank adaptation has facilitated the creation and sharing of hundreds of custom LoRA modules, each trained on distinct data from various downstream tasks. In this paper, we explore the composability of LoRA modules, examining if combining these pre-trained modules enhances generalization to unseen downstream tasks. Our investigation involves evaluating two approaches: (a) uniform composition, involving averaging upstream LoRA modules with equal weights, and (b) learned composition, where we learn the weights for each upstream module and perform weighted averaging. Our experimental results on both vision and language models reveal that in few-shot settings, where only a limited number of samples are available for the downstream task, both uniform and learned composition methods result in better transfer accuracy; outperforming full fine-tuning and training a LoRA from scratch. Moreover, in full-shot settings, learned composition performs comparably to regular LoRA training with significantly fewer number of trainable parameters. Our research unveils the potential of uniform composition for enhancing transferability in low-shot settings, without introducing additional learnable parameters.

arxiv情報

著者 Nader Asadi,Mahdi Beitollahi,Yasser Khalil,Yinchuan Li,Guojun Zhang,Xi Chen
発行日 2024-02-23 16:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク