Scaling Efficient LLMs

要約

トレーニングされた LLM は通常、ほとんどのパラメーターがゼロであるため、効率性に疑問が生じます。
これに応じて、効率的な LLM、つまりトレーニング コーパスで必要な精度を達成するパラメータが最も少ない LLM を調査します。
具体的には、現在のスケールでのトレーニング損失の理論的推定値と経験的推定値を比較して、自然トレーニング コーパス内の固有シーケンスの数の上限と下限をそのサイズの関数として取得します。
私たちの結果は、(1) トレーニング コーパスで表現されるスキルの数を 2 倍にするには、コーパスはおよそ 3 倍から 5 倍の間でスケールする必要がある、(2) 効率的な LLM、パラメータの数 $N$ とサイズ $D$ を実現する必要があることを意味します。
自然なトレーニング コーパスのスケールは $N \sim D^{0.58}$ (3) LLM のパラメーターの数がトレーニング コーパス内の固有のシーケンスの数よりも小さい場合、スケールアップにより新たなスキルが明らかになる可能性があります。

要約(オリジナル)

Trained LLMs are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficient LLMs, i.e. those with the fewest parameters that achieve the desired accuracy on a training corpus. Specifically, we compare theoretical and empirical estimates for training loss at current scale to obtain upper and lower bounds on the number of unique sequences in a natural training corpus as a function of its size. Our result implies (1) to double the number of skills represented in a training corpus, the corpus must scale roughly between three and five fold (2) for efficient LLMs, the number of parameters $N$ and the size $D$ of a natural training corpus scale as $N \sim D^{0.58}$ (3) if the number of parameters of an LLM is smaller than the number of unique sequences in the training corpus, scaling up can uncover emergent skills.

arxiv情報

著者 B. N. Kausik
発行日 2024-02-22 18:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク