要約
もともと、ドロップアウトは、過剰適合を減らすことにより、深い学習のほぼすべてのアプリケーションで過剰適合と改善されたパフォーマンスを低下させる画期的な正則化手法と見なされていました。
しかし、最新のLLMに共通する単一エポックの前削減タスクは、最小限の過剰適合をもたらし、大規模なLLMに使用されないドロップアウトにつながります。
それにもかかわらず、LM前脱出におけるドロップアウトの役割について、徹底的な経験的調査は行われていません。
さまざまなレベルのドロップアウトを伴うマスク(BERT)と自己回帰(Pythia 160Mおよび1.4B)の両方のシングルエポック事前削除の実験を通じて、言語モデリング、モルフォシンタックス(BLIMP)、質問応答(チーム)、および自然な言語的推論(MNLI)のドロップが無視されないときは、自然な言語的推論(チーム)の下流のパフォーマンスが見られます。
さらに、最近紹介された「早期ドロップアウト」は、ドロップアウトをまったく適用していないパフォーマンスも低下させることがわかりました。
さらに、モデルの編集可能性を調査し、ドロップアウトなしで訓練されたモデルがグラデーションベースのモデル編集(MEND)でより成功し、表現ベースのモデル編集(REFT)で同等であることがわかります。
したがって、シングルエポック事前にドロップアウトをドロップアウトすることを提唱しています。
要約(オリジナル)
Originally, dropout was seen as a breakthrough regularization technique that reduced overfitting and improved performance in almost all applications of deep learning by reducing overfitting. Yet, single-epoch pretraining tasks common to modern LLMs yield minimal overfitting, leading to dropout not being used for large LLMs. Nevertheless, no thorough empirical investigation has been done on the role of dropout in LM pretraining. Through experiments in single-epoch pretraining of both masked (BERT) and autoregressive (Pythia 160M and 1.4B) LMs with varying levels of dropout, we find that downstream performance in language modeling, morpho-syntax (BLiMP), question answering (SQuAD), and natural-language inference (MNLI) improves when dropout is not applied during pretraining. We additionally find that the recently-introduced ‘early dropout’ also degrades performance over applying no dropout at all. We further investigate the models’ editability, and find that models trained without dropout are more successful in gradient-based model editing (MEND) and equivalent in representation-based model editing (ReFT). Therefore, we advocate to drop dropout during single-epoch pretraining.
arxiv情報
著者 | Houjun Liu,John Bauer,Christopher D. Manning |
発行日 | 2025-05-30 16:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google