Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning

要約

大規模な事前トレーニング済みモデルをダウンストリーム タスクに合わせて微調整する場合、パラメーター効率の良い微調整 (PEFT) 手法を使用すると、トレーニング可能なパラメーターが少ない事前トレーニング済みモデルを効果的に微調整できますが、GPU メモリの消費量が多く、トレーニング速度が遅いという問題があります。
これらの方法で学習可能なパラメーターは事前トレーニング済みモデルと絡み合っているため、微調整中にフリーズされた事前トレーニング済みモデルのパラメーターに関連する勾配を計算して保存する必要があります。
我々は、事前学習済みネットワークのパラメーターだけでなく出力もフリーズすることで、事前学習済みモデルから学習可能なモジュールを分離する Low-rank Attendant Side-Tuning (LAST) を提案します。
LAST は、低ランクのセルフアテンション モジュールのみで構成されるサイドネットワークをトレーニングします。
事前トレーニングされたモデルを凍結された特徴抽出器として見ることにより、サイドネットワークは事前トレーニングされたモデルから中間出力を取得し、タスク固有の知識の学習に集中します。
また、LAST は複数の最適化目標にわたって高度に並列化できるため、下流のタスク適応、たとえば最適なハイパーパラメーターを見つける際に非常に効率的になることも示します。
LAST は、既存の PEFT 手法と比較して、GPU メモリの占有面積がわずか 30%、トレーニング時間は 60% であり、VTAB-1K やその他の視覚適応タスクで以前の最先端の手法を上回っていますが、精度は大幅に高くなります。

要約(オリジナル)

In finetuning a large pretrained model to downstream tasks, parameter-efficient fine-tuning (PEFT) methods can effectively finetune pretrained models with few trainable parameters, but suffer from high GPU memory consumption and slow training speed. Because learnable parameters from these methods are entangled with the pretrained model, gradients related to the frozen pretrained model’s parameters have to be computed and stored during finetuning. We propose Low-rank Attention Side-Tuning (LAST), which disentangles the trainable module from the pretrained model by freezing not only parameters but also outputs of the pretrained network. LAST trains a side-network composed of only low-rank self-attention modules. By viewing the pretrained model as a frozen feature extractor, the side-network takes intermediate output from the pretrained model and focus on learning task-specific knowledge. We also show that LAST can be highly parallel across multiple optimization objectives, making it very efficient in downstream task adaptation, for example, in finding optimal hyperparameters. LAST outperforms previous state-of-the-art methods on VTAB-1K and other visual adaptation tasks with roughly only 30\% of GPU memory footprint and 60\% of training time compared to existing PEFT methods, but achieves significantly higher accuracy.

arxiv情報

著者 Ningyuan Tang,Minghao Fu,Ke Zhu,Jianxin Wu
発行日 2024-02-06 14:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク