Do we need Label Regularization to Fine-tune Pre-trained Language Models?

要約

タイトル:事前学習された言語モデルを微調整する際にラベル正則化が必要か?

要約:

– 知識蒸留(KD)は、教師ネットワークの予測に基づいて学習をガイドするために利用される、主要なニューラルモデル圧縮技術である。
– KDは、事前学習された言語モデル(PLMs)が関与する多くのNLPタスクで使用される。
– KDは、教師ネットワークをトレーニング中に展開することにより、トレーニングのメモリと計算要件に追加することが明らかである。
– コンピュータビジョン文献では、教師ネットワークの必要性が検証され、KDがラベル正則化手法であることが示され、ラベルスムージング技術などの軽量な教師フリーの代替手法に置き換えられることが示されている。
– しかし、NLPの場合、この問題が調査されていないため、この作業は、異なるラベル正則化手法を研究し、小さなPLMネットワークをダウンストリームタスクで微調整するためにそれらが実際に必要かどうかを調査することに関心がある。
– この研究では、BERT、RoBERTa、GPTなどの異なるPLMについて、600以上の異なる試行で網羅的な実験を行い、各構成を5回実行した。
– この調査により、学習済みの学生モデルの場合、KDおよび他のラベル正則化技術が通常の微調整に比べて意味のある役割を果たさないという驚くべき結論が導かれた。
– さらに、異なるNLPおよびコンピュータビジョンタスクの設定でこの現象を探求し、事前学習自体が正則化の一種であり、追加のラベル正則化は必要ないことを示した。

要約(オリジナル)

Knowledge Distillation (KD) is a prominent neural model compression technique that heavily relies on teacher network predictions to guide the training of a student model. Considering the ever-growing size of pre-trained language models (PLMs), KD is often adopted in many NLP tasks involving PLMs. However, it is evident that in KD, deploying the teacher network during training adds to the memory and computational requirements of training. In the computer vision literature, the necessity of the teacher network is put under scrutiny by showing that KD is a label regularization technique that can be replaced with lighter teacher-free variants such as the label-smoothing technique. However, to the best of our knowledge, this issue is not investigated in NLP. Therefore, this work concerns studying different label regularization techniques and whether we actually need them to improve the fine-tuning of smaller PLM networks on downstream tasks. In this regard, we did a comprehensive set of experiments on different PLMs such as BERT, RoBERTa, and GPT with more than 600 distinct trials and ran each configuration five times. This investigation led to a surprising observation that KD and other label regularization techniques do not play any meaningful role over regular fine-tuning when the student model is pre-trained. We further explore this phenomenon in different settings of NLP and computer vision tasks and demonstrate that pre-training itself acts as a kind of regularization, and additional label regularization is unnecessary.

arxiv情報

著者 Ivan Kobyzev,Aref Jafari,Mehdi Rezagholizadeh,Tianda Li,Alan Do-Omri,Peng Lu,Pascal Poupart,Ali Ghodsi
発行日 2023-04-12 15:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク