Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck

要約

言語モデリングの最近の進歩は、ウェブマイニングされた非常に大規模なテキスト コーパス上で高度にパラメーター化されたニューラル ネットワークを事前トレーニングすることで構成されています。
このようなモデルを使用したトレーニングと推論は実際にはコストがかかる可能性があるため、より小規模なモデルの使用が奨励されます。
ただし、小規模なモデルでは飽和が発生する可能性があり、トレーニングが進んだ時点でパフォーマンスが低下し、その後プラトーに陥るという特徴があります。
この論文では、そのような飽和が、より小さなモデルの隠れ次元とターゲットのコンテキスト確率分布の上位との間の不一致によって説明できることを発見しました。
この不一致は、よく知られているソフトマックス ボトルネック現象を通じて、このようなモデルで使用される線形予測ヘッドのパフォーマンスに影響を与えます。
さまざまな設定でソフトマックスのボトルネックの影響を測定したところ、1000 未満の隠れ次元に基づくモデルは、事前トレーニングの後半で縮退した潜在表現を採用する傾向があり、それが評価パフォーマンスの低下につながることがわかりました。

要約(オリジナル)

Recent advances in language modeling consist in pretraining highly parameterized neural networks on extremely large web-mined text corpora. Training and inference with such models can be costly in practice, which incentivizes the use of smaller counterparts. However, it has been observed that smaller models can suffer from saturation, characterized as a drop in performance at some advanced point in training followed by a plateau. In this paper, we find that such saturation can be explained by a mismatch between the hidden dimension of smaller models and the high rank of the target contextual probability distribution. This mismatch affects the performance of the linear prediction head used in such models through the well-known softmax bottleneck phenomenon. We measure the effect of the softmax bottleneck in various settings and find that models based on less than 1000 hidden dimensions tend to adopt degenerate latent representations in late pretraining, which leads to reduced evaluation performance.

arxiv情報

著者 Nathan Godey,Éric de la Clergerie,Benoît Sagot
発行日 2024-04-11 11:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク