要約
なぜ大規模な言語モデルはよりよく一般化するのですか?
この質問を調査するために、Chinchillaのスケーリング法で説明されているように、計算最適なレジームの大規模な言語モデル(LLMS)の事前販売目標に関する一般化境界を築きます。
損失関数の分散を考慮することにより既存の境界を強化する、完全に完全に経験的なフリードマン型のマーティンゲール濃度の不平等を導入します。
この一般化境界は、トークンあたりのパラメーターの数、損失の分散、固定ビットレートでの量子化誤差の3つの解釈可能なコンポーネントに分解できます。
計算最適な言語モデルが拡大されるため、データポイントあたりのパラメーターの数は一定のままです。
ただし、損失の分散と量子化誤差の両方が減少し、より大きなモデルがより小さな一般化ギャップを持つはずであることを意味します。
より大きなモデルが情報理論的な観点からより量子化できる傾向がある理由を調べ、新しい情報を統合できる速度が、計算最適なフロンティアの容量よりもゆっくりと成長することを示しています。
これらの調査結果から、私たちは一般化ギャップのためのスケーリング法則を作成します。
要約(オリジナル)
Why do larger language models generalize better? To investigate this question, we develop generalization bounds on the pretraining objective of large language models (LLMs) in the compute-optimal regime, as described by the Chinchilla scaling laws. We introduce a novel, fully empirical Freedman-type martingale concentration inequality that tightens existing bounds by accounting for the variance of the loss function. This generalization bound can be decomposed into three interpretable components: the number of parameters per token, the loss variance, and the quantization error at a fixed bitrate. As compute-optimal language models are scaled up, the number of parameters per data point remains constant; however, both the loss variance and the quantization error decrease, implying that larger models should have smaller generalization gaps. We examine why larger models tend to be more quantizable from an information theoretic perspective, showing that the rate at which they can integrate new information grows more slowly than their capacity on the compute-optimal frontier. From these findings we produce a scaling law for the generalization gap, with bounds that become predictably stronger with scale.
arxiv情報
著者 | Marc Finzi,Sanyam Kapoor,Diego Granziol,Anming Gu,Christopher De Sa,J. Zico Kolter,Andrew Gordon Wilson |
発行日 | 2025-04-21 16:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google