Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

要約

スケーリングの法則は、言語モデルのサイズとその機能の関係を記述します。
損失やベンチマークによってモデルの機能を評価する従来の研究とは異なり、モデルが保存する知識ビットの数を推定します。
私たちは、Wikipedia ページの (米国、首都、ワシントン D.C.) などのタプルとして表される事実の知識に焦点を当てます。
複数の制御されたデータセットを通じて、言語モデルは、int8 に量子化された場合でもパラメーターごとに 2 ビットの知識のみを保存でき、そのような知識は下流のアプリケーション用に柔軟に抽出できることを確立しました。
その結果、7B モデルは 140 億ビットの知識を保存でき、これは私たちの推定に基づく英語版 Wikipedia と教科書の合計を上回ります。
より広範に、(1) トレーニング期間、(2) モデル アーキテクチャ、(3) 量子化、(4) MoE などのスパース性制約、および (5) データ信号対雑音比がモデルの知識にどのように影響するかについて 12 の結果を示します。
ストレージ容量。
注目すべき洞察は次のとおりです。 * ロータリー埋め込みを備えた GPT-2 アーキテクチャは、特に短いトレーニング期間において、知識ストレージにおいて LLaMA/Mistral アーキテクチャに匹敵するか、さらにはそれを上回ります。
これは、LLaMA/Mistral が安定性が低く、トレーニングが難しい GatedMLP を使用するために発生します。
* トレーニング データの前にドメイン名 (例: wikipedia.org) を追加すると、モデルの知識容量が大幅に増加します。
言語モデルは、知識が豊富なドメインを自律的に識別して優先順位を付け、そのストレージ容量を最適化できます。

要約(オリジナル)

Scaling laws describe the relationship between the size of language models and their capabilities. Unlike prior studies that evaluate a model’s capability via loss or benchmarks, we estimate the number of knowledge bits a model stores. We focus on factual knowledge represented as tuples, such as (USA, capital, Washington D.C.) from a Wikipedia page. Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications. Consequently, a 7B model can store 14B bits of knowledge, surpassing the English Wikipedia and textbooks combined based on our estimation. More broadly, we present 12 results on how (1) training duration, (2) model architecture, (3) quantization, (4) sparsity constraints such as MoE, and (5) data signal-to-noise ratio affect a model’s knowledge storage capacity. Notable insights include: * The GPT-2 architecture, with rotary embedding, matches or even surpasses LLaMA/Mistral architectures in knowledge storage, particularly over shorter training durations. This arises because LLaMA/Mistral uses GatedMLP, which is less stable and harder to train. * Prepending training data with domain names (e.g., wikipedia.org) significantly increases a model’s knowledge capacity. Language models can autonomously identify and prioritize domains rich in knowledge, optimizing their storage capacity.

arxiv情報

著者 Zeyuan Allen-Zhu,Yuanzhi Li
発行日 2024-04-08 11:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク