Scaling Efficient LLMs

要約

トレーニングされた LLM は通常、ほとんどのパラメーターがゼロであるため、効率性に疑問が生じます。
これに応じて、効率的な LLM、つまりトレーニング コーパスで必要な精度を達成するパラメータが最も少ない LLM を調査します。
具体的には、トレーニング損失の理論的推定値と経験的推定値を比較して、自然トレーニング コーパス内の固有シーケンスの数の上限と下限をそのサイズの関数として取得します。
私たちの結果は、(1) トレーニング コーパスで表現されるスキルの数を 2 倍にするには、コーパスを 4 倍以上にスケールする必要がある (2) LLM を効率的にするには、パラメータの数 N と自然なトレーニング コーパスのサイズ D を $ としてスケールすることを意味します。
N \propto D^{0.44}$;
(3) LLM のパラメータの数がトレーニング コーパス内の固有のシーケンスの数よりも小さい場合、スケールアップにより新たなスキルが見つかる可能性があります。

要約(オリジナル)

Trained LLMs are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficient LLMs, i.e. those with the fewest parameters that achieve the desired accuracy on a training corpus. Specifically, we compare theoretical and empirical estimates for training loss to obtain upper and lower bounds on the number of unique sequences in a natural training corpus as a function of its size. Our result implies (1) to double the number of skills represented in a training corpus, the corpus must scale more than four fold (2) for efficient LLMs, the number of parameters N and the size D of a natural training corpus scale as $N \propto D^{0.44}$; (3) if the number of parameters of an LLM is smaller than the number of unique sequences in the training corpus, scaling up can uncover emergent skills.

arxiv情報

著者 B. N. Kausik
発行日 2025-01-07 16:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク