Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

要約

大規模言語モデル(LLM)のスケーリングに関する研究は、主にモデルパラメータと学習データサイズに焦点を当てており、語彙サイズの役割は見落とされている。我々は、33Mから3Bのパラメータを持つモデルを、最大500Bの文字に対して様々な語彙構成で訓練することで、語彙サイズがLLMのスケーリング則にどのような影響を与えるかを調査する。最適な語彙サイズを予測するために、3つの補完的なアプローチを提案する:IsoFLOPs分析、微分推定、損失関数のパラメトリックフィットである。我々のアプローチは、最適な語彙サイズは計算バジェットに依存し、より大きなモデルはより大きな語彙を必要とするという結論に収束する。しかし、ほとんどのLLMは不十分な語彙サイズを使用している。例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであるべきで、32Kの語彙の7倍であった。我々は、異なるFLOPsバジェットにわたって3Bのパラメータでモデルを訓練することにより、経験的に我々の予測を検証した。予測した最適なボキャブラリサイズを採用することで、一般的に使用されているボキャブラリサイズよりも一貫してダウンストリーム性能が向上しました。語彙サイズを従来の32Kから43Kに増やすことで、同じ2.3e21 FLOPsでARC-Challengeの性能が29.1から32.0に向上しました。我々の研究は、効率的な事前学習のためにトークン化とモデルのスケーリングを共同で考慮することの重要性を強調している。コードとデモはhttps://github.com/sail-sg/scaling-with-vocab、https://hf.co/spaces/sail/scaling-with-vocab-demo。

要約(オリジナル)

Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the conclusion that the optimal vocabulary size depends on the compute budget, with larger models requiring larger vocabularies. Most LLMs, however, use insufficient vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work highlights the importance of jointly considering tokenization and model scaling for efficient pre-training. The code and demo are available at https://github.com/sail-sg/scaling-with-vocab and https://hf.co/spaces/sail/scaling-with-vocab-demo.

arxiv情報

著者 Chaofan Tao,Qian Liu,Longxu Dou,Niklas Muennighoff,Zhongwei Wan,Ping Luo,Min Lin,Ngai Wong
発行日 2024-11-01 02:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク