要約
ネクストトークン予測によって言語の構造を学習するにはどれくらいのデータが必要ですか?
私たちは、自然言語に見られる多くの階層構造を捕捉するツリー状の生成モデルである確率的コンテキストフリー文法 (PCFG) によって生成された合成データセットについてこの質問を研究します。
モデル内でトークン間の相関関係を分析的に決定し、それらを使用して文法の隠れた変数の表現を構築できることを示します。範囲が長いほど変数は深くなります。
さらに、有限のトレーニング セットでは、相関の分解能が有効範囲に制限され、そのサイズはトレーニング セットのサイズに応じて大きくなります。
その結果、ますます多くの例でトレーニングされた言語モデルは、文法構造のより深い表現を構築できるようになり、問題の次元が高いにもかかわらず、良好なパフォーマンスに達することができます。
私たちは、トレーニング セットのサイズと相関の有効範囲の間の関係は、合成データセットを超えて保持されると推測しています。
特に、私たちの推測は、トレーニング セット サイズによるテスト損失挙動のスケーリング則がコンテキスト ウィンドウの長さにどのように依存するかを予測します。これは、シェイクスピアの戯曲や Wikipedia の記事で経験的に確認されています。
要約(オリジナル)
How much data is required to learn the structure of a language via next-token prediction? We study this question for synthetic datasets generated via a Probabilistic Context-Free Grammar (PCFG) — a tree-like generative model that captures many of the hierarchical structures found in natural languages. We determine token-token correlations analytically in our model and show that they can be used to build a representation of the grammar’s hidden variables, the longer the range the deeper the variable. In addition, a finite training set limits the resolution of correlations to an effective range, whose size grows with that of the training set. As a result, a Language Model trained with increasingly many examples can build a deeper representation of the grammar’s structure, thus reaching good performance despite the high dimensionality of the problem. We conjecture that the relationship between training set size and effective range of correlations holds beyond our synthetic datasets. In particular, our conjecture predicts how the scaling law for the test loss behaviour with training set size depends on the length of the context window, which we confirm empirically in Shakespeare’s plays and Wikipedia articles.
arxiv情報
著者 | Francesco Cagnetta,Matthieu Wyart |
発行日 | 2024-10-29 16:35:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google