Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representations

要約

膨大な量のパラメータのために、事前学習された言語モデル(PLM)の微調整は、低リソースシナリオではオーバーフィッティングになりやすい。本研究では、PLMの隠れた表現に作用してオーバーフィッティングを低減する新しい方法を提示する。本手法では、微調整の際に、PLMの隠れ層の間にランダムなオートエンコーダを挿入し、前の層からの活性をマルチビュー圧縮表現に変換してから上位層に供給する。オートエンコーダは微調整の後、プラグアウトされるため、本手法は推論時に余分なパラメータを追加したり、計算コストを増加させたりすることがない。本手法は、シーケンスレベルおよびトークンレベルの低リソース自然言語処理タスクの広範囲において、有望な性能向上を実証している。

要約(オリジナル)

Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into multi-view compressed representations before feeding them into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.

arxiv情報

著者 Linlin Liu,Xingxuan Li,Megh Thakkar,Xin Li,Shafiq Joty,Luo Si,Lidong Bing
発行日 2023-05-11 06:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク