Performance Law of Large Language Models

要約

スケーリングの法則の信念に導かれ、大規模言語モデル (LLM) は近年、目覚ましいパフォーマンスを達成してきました。
ただし、スケーリング則は損失の定性的な推定を与えるだけであり、これはモデル アーキテクチャ、データ分布、トークナイザー、計算精度などのさまざまな要因の影響を受けます。
したがって、損失ではなく、さまざまなトレーニング設定で LLM の実際のパフォーマンスを推定することは、実際の開発において非常に役立つ可能性があります。
この記事では、LLM の MMLU スコアを直接予測するための「パフォーマンスの法則」と呼ばれる経験式を紹介します。MMLU スコアは、現実世界の会話やアプリケーションにおける LLM の一般的な能力を示すために広く使用されている指標です。
LLM アーキテクチャのいくつかの主要なハイパーパラメータとトレーニング データのサイズに基づいて、さまざまな組織によってさまざまな年に開発された、さまざまなサイズとアーキテクチャを持つさまざまな LLM の非常に正確な MMLU 予測が得られます。
パフォーマンスの法則を使用すると、大規模な実験を行わずに、LLM アーキテクチャの選択と計算リソースの効果的な割り当てをガイドできます。

要約(オリジナル)

Guided by the belief of the scaling law, large language models (LLMs) have achieved impressive performance in recent years. However, scaling law only gives a qualitative estimation of loss, which is influenced by various factors such as model architectures, data distributions, tokenizers, and computation precision. Thus, estimating the real performance of LLMs with different training settings rather than loss may be quite useful in practical development. In this article, we present an empirical equation named ‘Performance Law’ to directly predict the MMLU score of an LLM, which is a widely used metric to indicate the general capability of LLMs in real-world conversations and applications. Based on only a few key hyperparameters of the LLM architecture and the size of training data, we obtain a quite accurate MMLU prediction of various LLMs with diverse sizes and architectures developed by different organizations in different years. Performance law can be used to guide the choice of LLM architecture and the effective allocation of computational resources without extensive experiments.

arxiv情報

著者 Chuhan Wu,Ruiming Tang
発行日 2024-08-19 11:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク