HyPe: Better Pre-trained Language Model Fine-tuning with Hidden Representation Perturbation

要約

Transformers構造を持つ言語モデルは、自然言語処理において高い性能を発揮しています。しかし、訓練済みの言語モデルを下流のタスクで微調整する際には、オーバーフィットや表現崩壊などの問題が依然として存在する。本研究では、Transformers層の隠れ表現に摂動を与えることで、このような問題を緩和する、シンプルかつ効果的な微調整手法であるHyPeを提案する。入力やパラメータにノイズを加えるだけの先行研究とは異なり、我々はTransformers層の隠れた表現がより多様で意味のある言語情報を伝えると主張する。したがって、Transformersレイヤーを隠れ表現の摂動に対してより頑健にすることで、PLMの一括微調整にさらなる恩恵をもたらすことができる。我々は、GLUEと他の自然言語推論データセットで広範な実験と分析を実施した。結果は、HyPeがバニラ微調整を凌駕し、異なる層からの隠れ表現の汎化を強化することを示す。さらに、HyPeは無視できるほどの計算オーバーヘッドを獲得しており、これまでの最先端の微調整技術よりも優れており、互換性もある。

要約(オリジナル)

Language models with the Transformers structure have shown great performance in natural language processing. However, there still poses problems when fine-tuning pre-trained language models on downstream tasks, such as over-fitting or representation collapse. In this work, we propose HyPe, a simple yet effective fine-tuning technique to alleviate such problems by perturbing hidden representations of Transformers layers. Unlike previous works that only add noise to inputs or parameters, we argue that the hidden representations of Transformers layers convey more diverse and meaningful language information. Therefore, making the Transformers layers more robust to hidden representation perturbations can further benefit the fine-tuning of PLMs en bloc. We conduct extensive experiments and analyses on GLUE and other natural language inference datasets. Results demonstrate that HyPe outperforms vanilla fine-tuning and enhances generalization of hidden representations from different layers. In addition, HyPe acquires negligible computational overheads, and is better than and compatible with previous state-of-the-art fine-tuning techniques.

arxiv情報

著者 Hongyi Yuan,Zheng Yuan,Chuanqi Tan,Fei Huang,Songfang Huang
発行日 2023-05-11 07:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク