要約
現代の言語モデルには数十億のパラメーターが含まれる可能性があるため、トレーニング データを超えて一般化できるのか、それともトレーニング コーパスを単純にオウム返しできるのかという疑問が生じます。
事前学習済みの大規模言語モデル (LLM) に最初の非空の一般化境界を提供します。これは、言語モデルが目に見えないデータに一般化する規則性を発見できることを示しています。
特に、予測平滑化を使用して無制限の対数尤度損失に対して有効な圧縮限界を導出し、その限界を拡張してサブサンプリングを処理し、大規模なデータセットでの限界計算を桁違いに高速化します。
非空の境界に必要な極端な圧縮レベルを達成するために、私たちは、ほぼ 10 億のパラメータを持つモデルの非空の一般化境界をもたらす単純な低次元の非線形パラメータ化である SubLoRA を考案しました。
最後に、境界を使用して LLM 一般化を理解し、より大きなモデルの方がより優れた一般化境界を持ち、小さなモデルよりも圧縮可能であることがわかります。
要約(オリジナル)
Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply parrot their training corpora. We provide the first non-vacuous generalization bounds for pretrained large language models (LLMs), indicating that language models are capable of discovering regularities that generalize to unseen data. In particular, we derive a compression bound that is valid for the unbounded log-likelihood loss using prediction smoothing, and we extend the bound to handle subsampling, accelerating bound computation by orders of magnitude on massive datasets. To achieve the extreme level of compression required for non-vacuous bounds, we devise SubLoRA, a simple low-dimensional nonlinear parameterization that leads to non-vacuous generalization bounds for models with nearly a billion parameters. Finally, we use our bounds to understand LLM generalization and find that larger models have better generalization bounds and are more compressible than smaller models.
arxiv情報
| 著者 | Sanae Lotfi,Marc Finzi,Yilun Kuang,Tim G. J. Rudner,Micah Goldblum,Andrew Gordon Wilson | 
| 発行日 | 2024-07-17 15:32:47+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
