要約
パラメーター効率の高い転送学習(PETL)は、複数のダウンストリームタスクの前提型モデルのスケールを削減することを目的としています。
ただし、モデルが拡大し続けると、既存のPETLメソッドのメモリフットプリントは、学習可能なパラメーターの削減と比較して大幅に減少しません。
この制限は、メモリが制約されたデバイス上のPETLメソッドの実際の展開を妨げます。
この目的のために、微調整中のアクティベーションのメモリフットプリントを減らすために、アクティベーション(S2A)と呼ばれる新しいPETLフレームワークを提案しました。
具体的には、我々のフレームワークは、1)パラメトリックモデル構造におけるアクティベーションモジュール設計(つまり、バイアス、プロンプト、およびサイドモジュール)で構成され、調整可能なパラメーターとアクティベーションメモリが大幅に減少します。
2)ノンパラメトリック構造(非線形関数など)の導関数に基づく活性化の4ビット量子化。これは、メモリの使用量を大幅に削減しながら精度を維持します。
その結果、S2Aメソッドは、パラメーターとメモリフットプリントの両方の点で軽量ソリューションを提供します。
さまざまなバックボーンでS2Aを評価し、さまざまなデータセットで広範な実験を行い、有効性を評価しました。
結果は、我々の方法が既存のPETL技術よりも優れているだけでなく、平均してGPUメモリフットプリントの4倍の削減を達成するだけでなく、調整可能なパラメーターが少ないと精度の競争力のあるパフォーマンスを示していることを示しています。
これらは、私たちの方法がハードウェアに制約のあるデバイスでの実用的な転送学習に非常に適していることを示しています。
要約(オリジナル)
Parameter-efficient transfer learning (PETL) aims to reduce the scales of pretrained models for multiple downstream tasks. However, as the models keep scaling up, the memory footprint of existing PETL methods is not significantly reduced compared to the reduction of learnable parameters. This limitation hinders the practical deployment of PETL methods on memory-constrained devices. To this end, we proposed a new PETL framework, called Structure to Activation (S2A), to reduce the memory footprint of activation during fine-tuning. Specifically, our framework consists of: 1) Activation modules design(i.e., bias, prompt and side modules) in the parametric model structure, which results in a significant reduction of adjustable parameters and activation memory; 2) 4-bit quantization of activations based on their derivatives for non-parametric structures (e.g., nonlinear functions), which maintains accuracy while significantly reducing memory usage. Our S2A method consequently offers a lightweight solution in terms of both parameters and memory footprint. We evaluated S2A with different backbones and performed extensive experiments on various datasets to evaluate the effectiveness. The results show that our methods not only outperform existing PETL techniques, achieving a fourfold reduction in GPU memory footprint on average, but also shows competitive performance in accuracy with fewer tunable parameters. These demonstrate that our method is highly suitable for practical transfer learning on hardware-constrained devices.
arxiv情報
著者 | Tian Jin,Enjun Du,Changwei Wang,Wenhao Xu,Ding Luo |
発行日 | 2025-06-02 13:54:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google