LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning

要約

ダウンストリーム タスクで大規模な事前トレーニング済みモデルを微調整することは、最近さまざまな分野で採用されています。
ただし、大規模な事前トレーニング済みモデルのパラメーター セット全体を更新するにはコストがかかります。
最近提案されたパラメーター効率の良い転移学習 (PETL) 手法では、新しいタスクの事前トレーニング済みバックボーン ネットワーク内でパラメーターの小さなサブセット (たとえば、パラメーターの 2% のみを使用) を更新できますが、トレーニング メモリ要件は最大
30%。
これは、トレーニング可能なパラメーターの勾配計算に、事前にトレーニングされた大規模なバックボーン モデルによる逆伝播が依然として必要であるためです。
これに対処するために、ラダー サイド チューニング (LST) を提案します。これは、トレーニング メモリ要件を大幅に削減できる新しい PETL 手法です。
バックボーン ネットワーク内に追加のパラメーターを挿入する既存のパラメーター効率の高い方法とは異なり、ラダー サイド ネットワークをトレーニングします。これは、バックボーン ネットワークからのショートカット接続 (ラダーと呼ばれる) を介して入力として中間活性化を受け取り、予測を行う小規模で別個のネットワークです。
LST は、バックボーン ネットワークを介した逆伝播を必要とせず、代わりにサイド ネットワークとラダー接続のみを介するため、以前の方法よりもメモリ要件が大幅に低くなります。
NLP (GLUE) および視覚と言語 (VQA、GQA、NLVR2、MSCOCO) タスクの両方で、さまざまなモデル (T5 および CLIP-T5) を使用してメソッドを評価します。
LST は、ネットワーク全体を微調整するためのメモリ コストの 69% を節約しますが、他の方法では、同様のパラメーターの使用法で 26% しか節約できません (したがって、2.7 倍のメモリ節約)。
さらに、LST は、低メモリ領域で Adapter や LoRA よりも高い精度を達成します。
この優れたメモリ効率の利点をさらに示すために、LST をより大きな T5 モデルにも適用し、完全な微調整やその他の PETL メソッドよりも優れた GLUE パフォーマンスを達成します。
精度と効率のトレードオフは、VL タスクにも当てはまります。

要約(オリジナル)

Fine-tuning large pre-trained models on downstream tasks has been adopted in a variety of domains recently. However, it is costly to update the entire parameter set of large pre-trained models. Although recently proposed parameter-efficient transfer learning (PETL) techniques allow updating a small subset of parameters (e.g. only using 2% of parameters) inside a pre-trained backbone network for a new task, they only reduce the training memory requirement by up to 30%. This is because the gradient computation for the trainable parameters still requires backpropagation through the large pre-trained backbone model. To address this, we propose Ladder Side-Tuning (LST), a new PETL technique that can reduce training memory requirements by more substantial amounts. Unlike existing parameter-efficient methods that insert additional parameters inside backbone networks, we train a ladder side network, a small and separate network that takes intermediate activations as input via shortcut connections (called ladders) from backbone networks and makes predictions. LST has significantly lower memory requirements than previous methods, because it does not require backpropagation through the backbone network, but instead only through the side network and ladder connections. We evaluate our method with various models (T5 and CLIP-T5) on both NLP (GLUE) and vision-and-language (VQA, GQA, NLVR2 , MSCOCO) tasks. LST saves 69% of the memory costs to fine-tune the whole network, while other methods only save 26% of that in similar parameter usages (hence, 2.7x more memory savings). Moreover, LST achieves higher accuracy than Adapter and LoRA in a low-memory regime. To further show the advantage of this better memory efficiency, we also apply LST to larger T5 models, attaining better GLUE performance than full fine-tuning and other PETL methods. The accuracy-efficiency trade-off also holds on VL tasks.

arxiv情報

著者 Yi-Lin Sung,Jaemin Cho,Mohit Bansal
発行日 2022-10-31 17:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク