要約
トレーニングされた LLM は通常、ほとんどのパラメーターがゼロであるため、効率性に疑問が生じます。
これに応じて、効率的な LLM、つまりトレーニング コーパスで必要な精度を達成するパラメータが最も少ない LLM を調査します。
具体的には、トレーニング損失の理論的推定値と経験的推定値を比較して、自然トレーニング コーパス内の固有シーケンスの数の上限と下限をそのサイズの関数として取得します。
私たちの結果は、(1) トレーニング コーパスで表現されるスキルの数を 2 倍にするには、コーパスを約 18 倍にスケールする必要があることを意味します (2) 効率的な LLM を実現するには、パラメータの数 N と自然なトレーニング コーパスのサイズ D を $N としてスケールします。
\propto D^{0.24} (3) LLM のパラメーターの数がトレーニング コーパス内の固有のシーケンスの数よりも小さい場合、スケールアップすると新たなスキルが見つかる可能性があります。
要約(オリジナル)
Trained LLMs are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficient LLMs, i.e. those with the fewest parameters that achieve the desired accuracy on a training corpus. Specifically, we compare theoretical and empirical estimates for training loss to obtain upper and lower bounds on the number of unique sequences in a natural training corpus as a function of its size. Our result implies (1) to double the number of skills represented in a training corpus, the corpus must scale roughly eighteen fold (2) for efficient LLMs, the number of parameters N and the size D of a natural training corpus scale as $N \propto D^{0.24} (3) if the number of parameters of an LLM is smaller than the number of unique sequences in the training corpus, scaling up can uncover emergent skills.
arxiv情報
著者 | B. N. Kausik |
発行日 | 2025-01-06 18:25:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google