要約
パラメーターが膨大なため、リソースが少ないシナリオでは、事前トレーニング済み言語モデル (PLM) の微調整が過剰適合する傾向があります。
この研究では、PLM の隠れた表現を操作して過学習を軽減する新しい方法を紹介します。
微調整中に、私たちの手法は PLM の隠れ層の間にランダムなオートエンコーダーを挿入し、前の層からのアクティベーションをマルチビューの圧縮表現に変換してから、上位層に送り込みます。
オートエンコーダーは微調整後にプラグアウトされるため、私たちの方法では推論中に余分なパラメーターを追加したり、計算コストを増加させたりすることはありません。
私たちの方法は、幅広いシーケンスレベルおよびトークンレベルの低リソース NLP タスクにわたってパフォーマンスの向上が期待できることを示しています。
要約(オリジナル)
Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into multi-view compressed representations before feeding them into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
arxiv情報
著者 | Linlin Liu,Xingxuan Li,Megh Thakkar,Xin Li,Shafiq Joty,Luo Si,Lidong Bing |
発行日 | 2023-05-26 16:47:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google