Auto-Regressive Next-Token Predictors are Universal Learners

要約

大規模な言語モデルは、論理的および数学的推論において優れた能力を示し、複雑なタスクを解決できるようになります。
興味深いことに、これらの能力は、次のトークンの予測という単純なタスクで訓練されたネットワークで現れます。
この研究では、自己回帰ネクストトークン予測子を研究するための理論的枠組みを紹介します。
私たちは、思考連鎖 (CoT) データでトレーニングされた線形ネクストトークン予測器などの単純なモデルでも、チューリング マシンによって効率的に計算された関数を近似できることを実証します。
我々は、新しい複雑さの尺度である長さの複雑性を導入し、ターゲット関数を近似するために必要な CoT シーケンス内の中間トークンの数を測定し、長さの複雑さと他の複雑さの概念の間の相互作用を分析します。
最後に、線形ネットワークや浅い多層パーセプトロン (MLP) などの単純なネクスト トークン予測子が、テキスト生成や算術タスクで自明ではないパフォーマンスを示すことを実験的に示します。
私たちの結果は、言語モデルの力は、自動回帰ネクスト トークン トレーニング スキームに大きく起因しており、必ずしも特定のアーキテクチャの選択に依存しているわけではないことを示しています。

要約(オリジナル)

Large language models display remarkable capabilities in logical and mathematical reasoning, allowing them to solve complex tasks. Interestingly, these abilities emerge in networks trained on the simple task of next-token prediction. In this work, we present a theoretical framework for studying auto-regressive next-token predictors. We demonstrate that even simple models such as linear next-token predictors, trained on Chain-of-Thought (CoT) data, can approximate any function efficiently computed by a Turing machine. We introduce a new complexity measure — length complexity — which measures the number of intermediate tokens in a CoT sequence required to approximate some target function, and analyze the interplay between length complexity and other notions of complexity. Finally, we show experimentally that simple next-token predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs), display non-trivial performance on text generation and arithmetic tasks. Our results demonstrate that the power of language models can be attributed, to a great extent, to the auto-regressive next-token training scheme, and not necessarily to a particular choice of architecture.

arxiv情報

著者 Eran Malach
発行日 2023-09-13 14:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク