Representation Projection Invariance Mitigates Representation Collapse

要約

タイトル:表現投影不変性が表現の崩壊を和らげる

要約:

– NLPにおいて、学習済み言語モデルによる文脈化表現の微調整は依然として一般的な手法であるが、微調整によって表現の劣化(表現の崩壊とも呼ばれる)が引き起こされ、不安定性、劣等な性能、弱い汎化性能を引き起こす可能性がある。
– 本論文では、Representation Projection Invariance(REPINA)という新しい正則化手法を提案し、表現の情報内容を維持し、不要な変更を減らして微調整中の表現の崩壊を軽減する。
– 13の言語理解タスク(GLUEベンチマークと6つの追加データセット)で、5つの比較可能なベースラインと比較して、提案された正則化の実験的な動作を調べた。ドメイン内性能の評価では、REPINAが大部分のタスク(13のうち10)で他のベースラインよりも一貫して優れた性能を示した。また、少数のショット設定での有効性、ラベルの摂動に対する堅牢性も示した。
– 副産物として、表現の崩壊の以前の研究を拡張し、いくつかのメトリックを提案した。実験結果は、我々の手法が表現の崩壊を緩和するのにかなり効果的であることを示している。

要約(オリジナル)

Fine-tuning contextualized representations learned by pre-trained language models remains a prevalent practice in NLP. However, fine-tuning can lead to representation degradation (also known as representation collapse), which may result in instability, sub-optimal performance, and weak generalization. In this paper, we propose Representation Projection Invariance (REPINA), a novel regularization method to maintain the information content of representation and reduce representation collapse during fine-tuning by discouraging undesirable changes in the representations. We study the empirical behavior of the proposed regularization in comparison to 5 comparable baselines across 13 language understanding tasks (GLUE benchmark and six additional datasets). When evaluating in-domain performance, REPINA consistently outperforms other baselines on most tasks (10 out of 13). We also demonstrate its effectiveness in few-shot settings and robustness to label perturbation. As a by-product, we extend previous studies of representation collapse and propose several metrics to quantify it. Our empirical findings show that our approach is significantly more effective at mitigating representation collapse.

arxiv情報

著者 Anastasia Razdaibiedina,Ashish Khetan,Zohar Karnin,Daniel Khashabi,Vishaal Kapoor,Vivek Madan
発行日 2023-05-09 23:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク