要約
膨大な量のパラメータのために、事前学習された言語モデル(PLM)の微調整は、低リソースシナリオではオーバーフィッティングになりやすい。本研究では、PLMの隠れた表現に作用してオーバーフィッティングを低減する新しい方法を提示する。本手法では、微調整の際に、PLMの隠れ層の間にランダムなオートエンコーダを挿入し、前の層からの活性をマルチビュー圧縮表現に変換してから上位層に供給する。オートエンコーダは微調整の後、プラグアウトされるため、本手法は推論時に余分なパラメータを追加したり、計算コストを増加させたりすることがない。本手法は、シーケンスレベルおよびトークンレベルの低リソース自然言語処理タスクの広範囲において、有望な性能向上を実証している。
要約(オリジナル)
Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into multi-view compressed representations before feeding them into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
arxiv情報
著者 | Linlin Liu,Xingxuan Li,Megh Thakkar,Xin Li,Shafiq Joty,Luo Si,Lidong Bing |
発行日 | 2023-05-11 06:56:50+00:00 |
arxivサイト | arxiv_id(pdf) |