要約
近年、事前トレーニング済みのモデルが自然言語理解 (NLU) のパラダイムに革命をもたらしました。
BERT を実行し、モデル全体を微調整します。
事前トレーニング済みのバックボーンが改善に大きく貢献するため、当然、事前トレーニング済みの優れた分類ヘッドもトレーニングに利益をもたらすことが期待されます。
ただし、バックボーンの最終層の出力、つまり分類ヘッドの入力は微調整中に大きく変化するため、通常のヘッドのみの事前トレーニング (LP-FT) は効果がありません。
このホワイト ペーパーでは、パラメーター効率の高いチューニングが優れた分類ヘッドになることを発見しました。これにより、ランダムに初期化されたヘッドを簡単に置き換えて、安定したパフォーマンスを得ることができます。
私たちの実験は、パラメーター効率の高いチューニングで共同で事前トレーニングされた分類ヘッドが、GLUE と SuperGLUE の 9 つのタスクのパフォーマンスを一貫して改善することを示しています。
要約(オリジナル)
In recent years, pretrained models revolutionized the paradigm of natural language understanding (NLU), where we append a randomly initialized classification head after the pretrained backbone, e.g. BERT, and finetune the whole model. As the pretrained backbone makes a major contribution to the improvement, we naturally expect a good pretrained classification head can also benefit the training. However, the final-layer output of the backbone, i.e. the input of the classification head, will change greatly during finetuning, making the usual head-only pretraining (LP-FT) ineffective. In this paper, we find that parameter-efficient tuning makes a good classification head, with which we can simply replace the randomly initialized heads for a stable performance gain. Our experiments demonstrate that the classification head jointly pretrained with parameter-efficient tuning consistently improves the performance on 9 tasks in GLUE and SuperGLUE.
arxiv情報
著者 | Zhuoyi Yang,Ming Ding,Yanhui Guo,Qingsong Lv,Jie Tang |
発行日 | 2023-03-28 11:36:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google