Densing Law of LLMs

要約

大規模言語モデル (LLM) は人工知能のマイルストーンとして登場しており、モデルのサイズが大きくなるにつれてパフォーマンスが向上します。
ただし、このスケーリングは、特にリソースに制約のある環境で LLM を展開する場合に、トレーニングと推論の効率に大きな課題をもたらし、スケーリングの傾向はますます持続不可能になりつつあります。
この論文では、さまざまなスケールで LLM の品質を評価するための新しい指標として「\textit{容量密度}」の概念を紹介し、有効性と効率の両方の観点から LLM の傾向について説明します。
特定のターゲット LLM の容量密度を計算するには、まず一連の参照モデルを導入し、パラメーター サイズに基づいてこれらの参照モデルのダウンストリーム パフォーマンスを予測するスケーリング則を開発します。
次に、ターゲット LLM の \textit{有効パラメータ サイズ} を、参照モデルが同等のパフォーマンスを達成するために必要なパラメータ サイズとして定義し、容量密度をターゲットの実際のパラメータ サイズに対する有効パラメータ サイズの比率として形式化します。
LLM。
容量密度は、モデルの有効性と効率の両方を評価するための統合フレームワークを提供します。
最近のオープンソースのベース LLM をさらに分析したところ、LLM の容量密度は時間の経過とともに指数関数的に増加するという経験則 (密度の法則) が明らかになりました。
具体的には、評価に広く使用されているいくつかのベンチマークを使用すると、LLM の容量密度は約 3 か月ごとに 2 倍になります。
この法律は、将来の LLM 開発を導くための新しい視点を提供し、最小限の計算オーバーヘッドで最適な結果を達成するために容量密度を向上させることの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have emerged as a milestone in artificial intelligence, and their performance can improve as the model size increases. However, this scaling brings great challenges to training and inference efficiency, particularly for deploying LLMs in resource-constrained environments, and the scaling trend is becoming increasingly unsustainable. This paper introduces the concept of “\textit{capacity density}” as a new metric to evaluate the quality of the LLMs across different scales and describes the trend of LLMs in terms of both effectiveness and efficiency. To calculate the capacity density of a given target LLM, we first introduce a set of reference models and develop a scaling law to predict the downstream performance of these reference models based on their parameter sizes. We then define the \textit{effective parameter size} of the target LLM as the parameter size required by a reference model to achieve equivalent performance, and formalize the capacity density as the ratio of the effective parameter size to the actual parameter size of the target LLM. Capacity density provides a unified framework for assessing both model effectiveness and efficiency. Our further analysis of recent open-source base LLMs reveals an empirical law (the densing law)that the capacity density of LLMs grows exponentially over time. More specifically, using some widely used benchmarks for evaluation, the capacity density of LLMs doubles approximately every three months. The law provides new perspectives to guide future LLM development, emphasizing the importance of improving capacity density to achieve optimal results with minimal computational overhead.

arxiv情報

著者 Chaojun Xiao,Jie Cai,Weilin Zhao,Guoyang Zeng,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-12-05 16:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク