PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven Perturbed Gradient Descent

要約

下流タスクの事前トレーニング済み言語モデル (PLM) の微調整は大規模な最適化問題であり、トレーニング アルゴリズムの選択が、特に少数ショットのコンテキストで、トレーニング済みモデルが目に見えないテスト データに対してどの程度うまく一般化できるかを決定します。
学ぶ。
良好な汎化パフォーマンスを達成し、過剰適合を回避するために、データ拡張や枝刈りなどの手法がよく適用されます。
ただし、これらの正則化を追加するには、人気のある Adam オプティマイザーなどの最適化アルゴリズムのハイパーパラメーターを大幅に調整する必要があります。
この論文では、この最適化の課題に対処するために、2 段階の微調整方法である PAC チューニングを提案します。
まず、PAC ベイズ トレーニングに基づいて、PAC チューニングは、適切なパラメーター分布を学習するためにバインドされた PAC ベイズ一般化を直接最小化します。
次に、PAC チューニングは、最初の段階で学習した分散を伴うノイズをトレーニング中にモデル パラメーターに注入することによって勾配を変更し、その結果、摂動勾配降下法 (PGD) の変種が得られます。
これまでは、トレーニング データが限られた大規模モデルに PAC ベイズ限界を適用すると、PAC ベイズ限界が厳しくない可能性があるため、少数ショット シナリオでは PAC ベイズ トレーニングに困難が生じていました。
5 つの GLUE ベンチマーク タスクにわたる実験結果は、PAC チューニングが微調整タスクの課題にうまく対処し、強力なベースライン手法を目に見えるマージンで上回っていることを示しており、Adam オプティマイザーが現在使用されている他の設定にも PAC トレーニングを適用できる可能性をさらに裏付けています。
トレーニングに使用されます。

要約(オリジナル)

Fine-tuning pretrained language models (PLMs) for downstream tasks is a large-scale optimization problem, in which the choice of the training algorithm critically determines how well the trained model can generalize to unseen test data, especially in the context of few-shot learning. To achieve good generalization performance and avoid overfitting, techniques such as data augmentation and pruning are often applied. However, adding these regularizations necessitates heavy tuning of the hyperparameters of optimization algorithms, such as the popular Adam optimizer. In this paper, we propose a two-stage fine-tuning method, PAC-tuning, to address this optimization challenge. First, based on PAC-Bayes training, PAC-tuning directly minimizes the PAC-Bayes generalization bound to learn proper parameter distribution. Second, PAC-tuning modifies the gradient by injecting noise with the variance learned in the first stage into the model parameters during training, resulting in a variant of perturbed gradient descent (PGD). In the past, the few-shot scenario posed difficulties for PAC-Bayes training because the PAC-Bayes bound, when applied to large models with limited training data, might not be stringent. Our experimental results across 5 GLUE benchmark tasks demonstrate that PAC-tuning successfully handles the challenges of fine-tuning tasks and outperforms strong baseline methods by a visible margin, further confirming the potential to apply PAC training for any other settings where the Adam optimizer is currently used for training.

arxiv情報

著者 Guangliang Liu,Zhiyu Xue,Xitong Zhang,Kristen Marie Johnson,Rongrong Wang
発行日 2023-10-26 17:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク