A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe Processes

要約

大規模な言語モデルは、パラメーターとトレーニング トークンの数に関して、クロス エントロピーのべき法則減衰を示すことが観察されました。
文字どおり推定すると、この減衰は自然言語のエントロピー率がゼロであることを意味します。
この現象 (またはアーティファクト) をよりよく理解するために、単純な定常確率過程と、エントロピー率が消失するクロス エントロピーのべき乗則減衰を示すそのメモリ ベースの予測子を構築します。
この例は、ランダムなテキストをナレーションと時間に依存しない知識のプロセスに分解する、前述のサンタフェ プロセスに基づいています。
以前の議論では、ナレーションは Zipf の配布による記憶のないソースであると想定していました。
この論文では、消失エントロピー率を持ち、多周期シーケンスと呼ばれるランダムに選択された決定論的シーケンスを適用するナレーションのモデルを提案します。
適切なパラメータ化の下では、多周期シーケンスは Zipf の法則によって与えられる漸近的な相対周波数を示します。
自然言語のエントロピー率の値にとらわれないまま、言語モデリングに対する同様の構造の関連性について説明します。

要約(オリジナル)

It was observed that large language models exhibit a power-law decay of cross entropy with respect to the number of parameters and training tokens. When extrapolated literally, this decay implies that the entropy rate of natural language is zero. To understand this phenomenon — or an artifact — better, we construct a simple stationary stochastic process and its memory-based predictor that exhibit a power-law decay of cross entropy with the vanishing entropy rate. Our example is based on previously discussed Santa Fe processes, which decompose a random text into a process of narration and time-independent knowledge. Previous discussions assumed that narration is a memoryless source with Zipf’s distribution. In this paper, we propose a model of narration that has the vanishing entropy rate and applies a randomly chosen deterministic sequence called a multiperiodic sequence. Under a suitable parameterization, multiperiodic sequences exhibit asymptotic relative frequencies given by Zipf’s law. Remaining agnostic about the value of the entropy rate of natural language, we discuss relevance of similar constructions for language modeling.

arxiv情報

著者 Łukasz Dębowski
発行日 2023-02-17 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60G10 (Primary) 62M20, 94A17 (Secondary), cs.IT, cs.LG, math.IT, math.ST, stat.TH パーマリンク