Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

要約

大規模言語モデル (LLM) のスケーリングに関する研究は、主にモデル パラメーターとトレーニング データ サイズに焦点を当てており、語彙サイズの役割が無視されています。
% 直観的には、語彙が大きくなると、より少ないトークンで文が表現されるため、より効率的なトークン化が可能になりますが、まれなトークンの表現が不完全になるリスクも増加します。
さまざまな語彙構成を使用して最大 500B 文字で 3,300 万から 3B のパラメーターの範囲のモデルをトレーニングすることにより、語彙サイズが LLM スケーリング則にどのような影響を与えるかを調査します。
計算に最適な語彙サイズを予測するために、IsoFLOPs 分析、導関数推定、損失関数のパラメトリック フィットという 3 つの補完的なアプローチを提案します。
私たちのアプローチは、最適な語彙サイズは利用可能な計算予算に依存し、より大きなモデルにはより大きな語彙が必要であるという同じ結果に収束します。
ただし、ほとんどの LLM は語彙サイズが小さすぎます。
たとえば、Llama2-70B の最適な語彙サイズは少なくとも 216K であり、語彙数 32K の 7 倍であると予測されます。
さまざまな FLOP バジェットにわたって 3B パラメーターを使用してモデルをトレーニングすることにより、予測を経験的に検証します。
予測された最適な語彙サイズを採用すると、一般的に使用される語彙サイズよりもダウンストリームのパフォーマンスが一貫して向上します。
語彙サイズを従来の 32K から 43K に増やすことにより、同じ 2.3e21 FLOP で ARC-Challenge のパフォーマンスが 29.1 から 32.0 に向上しました。
私たちの研究では、効率的なスケーリングのためにモデル パラメーターと語彙サイズを共同で考慮する必要性を強調しています。

要約(オリジナル)

Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.

arxiv情報

著者 Chaofan Tao,Qian Liu,Longxu Dou,Niklas Muennighoff,Zhongwei Wan,Ping Luo,Min Lin,Ngai Wong
発行日 2024-07-18 15:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク