A Stability Analysis of Fine-Tuning a Pre-Trained Model

要約

事前トレーニング済みモデル (BERT、ALBERT、RoBERTa、T5、GPT など) を微調整することは、最近の NLP 研究で最も有望なパラダイムの 1 つであることが証明されています。
しかし、最近の多くの研究では、微調整には不安定性の問題があることが示されています。つまり、同じモデルを同じ設定で調整すると、パフォーマンスが大幅に異なります。
最近の多くの研究では、この問題を解決するためのさまざまな方法が提案されていますが、これらの方法がなぜ、どのように機能するのかについては理論的に理解されていません。
この論文では、フル微調整とヘッド調整という 2 つの一般的に使用される設定に焦点を当てた、微調整の新しい理論的安定性解析を提案します。
各設定の下での安定性を定義し、対応する安定性の限界を証明します。
理論的限界は、いくつかの既存の方法が微調整手順を安定化できる理由と方法を説明します。
私たちが提案する理論的分析フレームワークは、観察された経験的発見のほとんどを説明できることに加えて、効果的で証明可能な方法の設計にも役立ちます。
私たちの理論に基づいて、微調整手順を安定させるための 3 つの新しい戦略、すなわち Maximal Margin Regularizer (MMR)、Multi-Head Loss (MHLoss)、および Self Unsupervised Re-Training (SURT) を提案します。
私たちは、広く使用されている 11 の現実世界でのベンチマーク データセットと数百の合成分類データセットに対して、提案したアプローチを広範囲に評価しています。
実験結果は、私たちが提案した方法が微調整手順を大幅に安定化し、理論分析を裏付けることを示しています。

要約(オリジナル)

Fine-tuning a pre-trained model (such as BERT, ALBERT, RoBERTa, T5, GPT, etc.) has proven to be one of the most promising paradigms in recent NLP research. However, numerous recent works indicate that fine-tuning suffers from the instability problem, i.e., tuning the same model under the same setting results in significantly different performance. Many recent works have proposed different methods to solve this problem, but there is no theoretical understanding of why and how these methods work. In this paper, we propose a novel theoretical stability analysis of fine-tuning that focuses on two commonly used settings, namely, full fine-tuning and head tuning. We define the stability under each setting and prove the corresponding stability bounds. The theoretical bounds explain why and how several existing methods can stabilize the fine-tuning procedure. In addition to being able to explain most of the observed empirical discoveries, our proposed theoretical analysis framework can also help in the design of effective and provable methods. Based on our theory, we propose three novel strategies to stabilize the fine-tuning procedure, namely, Maximal Margin Regularizer (MMR), Multi-Head Loss (MHLoss), and Self Unsupervised Re-Training (SURT). We extensively evaluate our proposed approaches on 11 widely used real-world benchmark datasets, as well as hundreds of synthetic classification datasets. The experiment results show that our proposed methods significantly stabilize the fine-tuning procedure and also corroborate our theoretical analysis.

arxiv情報

著者 Zihao Fu,Anthony Man-Cho So,Nigel Collier
発行日 2023-12-07 18:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク