要約
現代の言語モデルには数十億のパラメータが含まれる可能性があり、トレーニング データを超えて一般化できるのか、それともトレーニング コーパスを単純に逆流させることができるのかという疑問が生じます。
事前学習済みの大規模言語モデル (LLM) に最初の非空の一般化境界を提供します。これは、言語モデルが目に見えないデータに一般化する規則性を発見できることを示しています。
特に、予測平滑化を使用して無制限の対数尤度損失に有効な圧縮限界を導出し、その限界を拡張してサブサンプリングを処理し、大規模なデータセットでの限界計算を高速化します。
非空の汎化境界に必要な極端なレベルの圧縮を達成するために、低次元の非線形パラメータ化である SubLoRA を考案しました。
このアプローチを使用すると、小さなモデルよりも大きなモデルの方が汎化限界が優れており、より圧縮可能であることがわかります。
要約(オリジナル)
Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply regurgitate their training corpora. We provide the first non-vacuous generalization bounds for pretrained large language models (LLMs), indicating that language models are capable of discovering regularities that generalize to unseen data. In particular, we derive a compression bound that is valid for the unbounded log-likelihood loss using prediction smoothing, and we extend the bound to handle subsampling, accelerating bound computation on massive datasets. To achieve the extreme level of compression required for non-vacuous generalization bounds, we devise SubLoRA, a low-dimensional non-linear parameterization. Using this approach, we find that larger models have better generalization bounds and are more compressible than smaller models.
arxiv情報
著者 | Sanae Lotfi,Marc Finzi,Yilun Kuang,Tim G. J. Rudner,Micah Goldblum,Andrew Gordon Wilson |
発行日 | 2023-12-28 17:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google