要約
変圧器は、順次データのパターンの発見に優れていますが、その基本的な制限と学習メカニズムは、調査の重要なトピックのままです。
この論文では、再発関係$ x_ {t + 1} = a x_t + c \; \ mathrm {mod} \; \ mathrm \; \ mathrm \;
;
M $。
私たちの分析により、十分なアーキテクチャ能力とトレーニングデータの多様性により、トランスは、目に見えないモジュリ($ m $)とパラメーター($ a、c $)を使用してLCGシーケンスのコンテキスト内予測を実行できることが明らかになりました。
埋め込み層と注意パターンの分析を通じて、トランスが複雑さを高める2つのシナリオでこれらのシーケンスを学習するためのアルゴリズム構造を開発する方法を明らかにします。
まず、トランスが目に見えない($ a、c $)でLCGシーケンスを学習する方法を分析しますが、固定モジュラスを分析し、$ m = 2^{32} $までの学習を成功させることを示します。
私たちの分析により、モデルはモジュラスを因数分解し、数字の数値表現を利用して連続的な予測を行うことを学ぶことが明らかになりました。
2番目の目に見えないモジュリのより挑戦的なシナリオでは、トランスが$ m _ {\ text {test}} = 2^{16} $までの目に見えないモジュリに一般化できることを示します。
この場合、モデルは2段階の戦略を採用しています。まず、コンテキストから未知のモジュラスを推定し、次にプライム因数化を利用して予測を生成します。
このタスクでは、臨界深さ$ = 3 $で精度の急激な遷移を観察します。
また、モジュラスとともに高精度スケールに到達するために必要なコンテキスト内シーケンス要素の数が必要であることがわかります。
要約(オリジナル)
Transformers excel at discovering patterns in sequential data, yet their fundamental limitations and learning mechanisms remain crucial topics of investigation. In this paper, we study the ability of Transformers to learn pseudo-random number sequences from linear congruential generators (LCGs), defined by the recurrence relation $x_{t+1} = a x_t + c \;\mathrm{mod}\; m$. Our analysis reveals that with sufficient architectural capacity and training data variety, Transformers can perform in-context prediction of LCG sequences with unseen moduli ($m$) and parameters ($a,c$). Through analysis of embedding layers and attention patterns, we uncover how Transformers develop algorithmic structures to learn these sequences in two scenarios of increasing complexity. First, we analyze how Transformers learn LCG sequences with unseen ($a, c$) but fixed modulus, and we demonstrate successful learning up to $m = 2^{32}$. Our analysis reveals that models learn to factorize the modulus and utilize digit-wise number representations to make sequential predictions. In the second, more challenging scenario of unseen moduli, we show that Transformers can generalize to unseen moduli up to $m_{\text{test}} = 2^{16}$. In this case, the model employs a two-step strategy: first estimating the unknown modulus from the context, then utilizing prime factorizations to generate predictions. For this task, we observe a sharp transition in the accuracy at a critical depth $=3$. We also find that the number of in-context sequence elements needed to reach high accuracy scales sublinearly with the modulus.
arxiv情報
著者 | Tao Tao,Darshil Doshi,Dayal Singh Kalra,Tianyu He,Maissam Barkeshli |
発行日 | 2025-02-14 18:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google