要約
事前トレーニングされた言語モデルによって学習された文脈化された表現を微調整することは、NLP で依然として広く行われています。
ただし、微調整すると表現の劣化 (表現の崩壊とも呼ばれます) が発生する可能性があり、その結果、不安定性、次善のパフォーマンス、弱い汎化が発生する可能性があります。
この論文では、表現の情報内容を維持し、表現の望ましくない変更を阻止することで微調整中の表現の崩壊を減らす新しい正則化手法である表現投影不変性 (REPINA) を提案します。
13 の言語理解タスク (GLUE ベンチマークと 6 つの追加データセット) にわたる 5 つの比較可能なベースラインと比較して、提案された正則化の経験的な動作を研究します。
ドメイン内のパフォーマンスを評価する場合、REPINA はほとんどのタスク (13 件中 10 件) で他のベースラインを常に上回っています。
また、数ショット設定での有効性とラベルの摂動に対する堅牢性も示します。
副産物として、表現崩壊に関する以前の研究を拡張し、それを定量化するためのいくつかの指標を提案します。
私たちの経験的発見は、私たちのアプローチが表現の崩壊を軽減するのにはるかに効果的であることを示しています。
要約(オリジナル)
Fine-tuning contextualized representations learned by pre-trained language models remains a prevalent practice in NLP. However, fine-tuning can lead to representation degradation (also known as representation collapse), which may result in instability, sub-optimal performance, and weak generalization. In this paper, we propose Representation Projection Invariance (REPINA), a novel regularization method to maintain the information content of representation and reduce representation collapse during fine-tuning by discouraging undesirable changes in the representations. We study the empirical behavior of the proposed regularization in comparison to 5 comparable baselines across 13 language understanding tasks (GLUE benchmark and six additional datasets). When evaluating in-domain performance, REPINA consistently outperforms other baselines on most tasks (10 out of 13). We also demonstrate its effectiveness in few-shot settings and robustness to label perturbation. As a by-product, we extend previous studies of representation collapse and propose several metrics to quantify it. Our empirical findings show that our approach is significantly more effective at mitigating representation collapse.
arxiv情報
著者 | Anastasia Razdaibiedina,Ashish Khetan,Zohar Karnin,Daniel Khashabi,Vishaal Kapoor,Vivek Madan |
発行日 | 2023-11-21 22:23:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google