Make Your Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning

要約

事前トレーニング済み言語モデル (PLM) のパラメーター効率の良い微調整 (PEFT) は、パフォーマンスを犠牲にすることなく少数のパラメーターのみをトレーニングすることで非常に成功したアプローチとして浮上しており、規模の増大に伴い事実上の学習パラダイムとなっています。
PLM。
ただし、既存の PEFT 手法は、微調整と同様に、勾配計算の中間アクティベーションのほとんどをキャッシュする必要があるため、メモリ効率が高くありません。
アクティベーション メモリを削減する効果的な方法の 1 つは、可逆モデルを適用することです。これにより、中間アクティベーションをキャッシュする必要がなく、再計算できるようになります。
それにもかかわらず、可逆モデルは現在リリースされている PLM とは異なるアーキテクチャを備えているため、PEFT を使用して PLM をその可逆バリアントに変更することは簡単ではありません。
このペーパーでは、まず既存の PEFT メソッドの成功の重要な要素が何かを調査し、PEFT メソッドを初期化するときに PLM の開始点を保持することが不可欠であることを認識します。
この発見に基づいて、PLM にアダプターを挿入し、PLM の開始点を保持し、追加の事前トレーニングなしで元に戻せるようにするメモリ効率の良い微調整 (MEFT) を提案します。
GLUE ベンチマークと、さまざまなバックボーン (BERT、RoBERTa、BART、OPT) を備えた 5 つの質問応答タスクで MEFT を評価します。
MEFT は、ごくわずかな量のトレーニング可能なパラメータを使用して、完全な微調整のアクティベーション メモリを最大 84% まで大幅に削減します。
さらに、MEFT は GLUE で同じスコアを達成し、質問応答タスクでは完全な微調整と同等のスコアを達成しました。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant with PEFT is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it’s essential to preserve the PLM’s starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM’s starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning.

arxiv情報

著者 Baohao Liao,Shaomu Tan,Christof Monz
発行日 2023-06-06 16:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク