Implicit Bias of Next-Token Prediction

要約

次のトークン予測 (NTP) は、大規模な言語モデルをトレーニングする際の主要なトレーニング パラダイムであり、シーケンス内の次のトークンを予測します。
従来のワンホット分類とは異なり、NTP では、さまざまな頻度を持つ複数のトークンが、指定された各コンテキストに従います。
この研究では、NTP トレーニングを、それぞれが有限の語彙にわたる疎な経験的確率ベクトルに関連付けられた、個別のコンテキストにわたるクロスエントロピーの最小化として枠組み化しています。
次に、次の質問に対処します。NTP トレーニング損失が下限 (エントロピー) に達すると、勾配ベースのオプティマイザーは特定の構造を持つソリューションに偏りを示しますか?
具体的には、勾配降下法 (GD) を使用してトレーニングされた線形 NTP モデルについて、次の貢献を行います。 まず、GD が下限に到達できるデータの NTP 分離可能条件を決定します。
また、これらの条件がオーバーパラメータ化下でも維持されることも示します。
第二に、適切なデータ部分空間に投影された GD のパラメータが線形方程式系の一意の解に収束することを確立します。これには、サポート中トークンのロジットの差がそれぞれの確率の対数比に等しいことが必要です。

一方、直交部分空間上では、パラメータは最大マージン二次計画法の解の方向に発散および収束し、\NTP 分離可能条件を満たすパラメータのユークリッド ノルムを最小化します。
ワンホット分類の暗黙的なバイアスに関する先行研究と同様に、私たちの研究は、NTP でトレーニングされたモデルの最適化、一般化、およびロバスト性の原理のより深い理解につながる可能性のある将来の研究に刺激的な道を開きます。

要約(オリジナル)

Next-token prediction (NTP), the go-to training paradigm in training large language models, involves predicting the next token in a sequence. Departing from traditional one-hot classification, in NTP, multiple tokens with varying frequencies follow each given context. This work frames NTP training as cross-entropy minimization over distinct contexts, each associated with a sparse empirical probability vector across a finite vocabulary. It then addresses the following question: do gradient-based optimizers exhibit a bias towards solutions with specific structure as the NTP training loss reaches its lower bound (entropy)? Specifically, for linear NTP models trained using gradient descent (GD), we make the following contributions: Firstly, we determine NTP-separability conditions on the data, under which GD can attain its lower bound. We also demonstrate that these conditions hold under overparameterization. Secondly, we establish that the parameters of GD projected onto an appropriate data subspace converge to the unique solution of a system of linear equations, which requires the logits’ difference of in-support tokens to be equal to the log-ratio of their respective probabilities. Meanwhile, on the orthogonal subspace, the parameters diverge and converge in the direction of the solution of a max-margin quadratic program, minimizing the Euclidean norm of parameters satisfying the \NTP-separability conditions. Akin to prior research on implicit bias of one-hot classification, our work opens exciting avenues for future research that can lead to better understanding optimization, generalization and robustness principles of models trained with NTP.

arxiv情報

著者 Christos Thrampoulidis
発行日 2024-02-28 18:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク