LayerNorm: A key component in parameter-efficient fine-tuning

要約

Bidirectional Encoder Representations from Transformers (BERT) などの事前トレーニング済みモデルを微調整することは、多くの自然言語処理 (NLP) タスクを解決するための効果的な方法であることが証明されています。
ただし、BERT を含む多くの最先端の NLP モデルには多数のパラメーターがあるため、微調整のプロセスは計算コストが高くなります。
この問題に対する魅力的な解決策の 1 つは、パラメーター効率の高い微調整です。これには、モデルの最小限のセグメントのみを変更し、残りの部分は変更しません。
しかし、BERT モデルのどのセグメントが微調整に重要であるかは依然として不明です。
このペーパーでは、まず BERT モデルのさまざまなコンポーネントを分析し、微調整後にどのコンポーネントが最も重大な変化を受けるかを特定します。
さまざまな一般言語理解評価 (GLUE) タスクに合わせて微調整すると、出力 LayerNorm が他のコンポーネントよりも大きく変化することがわかりました。
次に、LayerNorm を微調整するだけで、完全な微調整やその他のパラメータ効率の高い微調整方法と同等、または場合によってはそれ以上のパフォーマンスを達成できることを示します。
さらに、フィッシャー情報を使用して LayerNorm の最も重要なサブセットを決定し、GLUE ベンチマークの多くの NLP タスクが、ごくわずかなパフォーマンス低下で LayerNorm のごく一部のみを微調整することによって解決できることを実証します。

要約(オリジナル)

Fine-tuning a pre-trained model, such as Bidirectional Encoder Representations from Transformers (BERT), has been proven to be an effective method for solving many natural language processing (NLP) tasks. However, due to the large number of parameters in many state-of-the-art NLP models, including BERT, the process of fine-tuning is computationally expensive. One attractive solution to this issue is parameter-efficient fine-tuning, which involves modifying only a minimal segment of the model while keeping the remainder unchanged. Yet, it remains unclear which segment of the BERT model is crucial for fine-tuning. In this paper, we first analyze different components in the BERT model to pinpoint which one undergoes the most significant changes after fine-tuning. We find that output LayerNorm changes more than any other components when fine-tuned for different General Language Understanding Evaluation (GLUE) tasks. Then we show that only fine-tuning the LayerNorm can reach comparable, or in some cases better, performance to full fine-tuning and other parameter-efficient fine-tuning methods. Moreover, we use Fisher information to determine the most critical subset of LayerNorm and demonstrate that many NLP tasks in the GLUE benchmark can be solved by fine-tuning only a small portion of LayerNorm with negligible performance degradation.

arxiv情報

著者 Taha ValizadehAslani,Hualou Liang
発行日 2024-03-29 16:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク