要約
単なるネクストトークン予測器で人間の知能を忠実にモデル化できるでしょうか?
文献では断片化されているこの直感的な懸念を具体化します。
出発点として、ネクストトークン予測の 2 つのよく混同されるフェーズ、つまり自己回帰推論と教師による強制トレーニングは、別個に扱う必要があると主張します。
自己回帰推論中にエラーが悪化する可能性があるという一般的な批判は、教師強制が正確な次のトークンの予測子を学習していることを決定的に前提としています。
この仮定は、私たちが明らかにした、より根深い問題を回避します。タスクの特定のクラスでは、教師による強制は、そもそも正確な次のトークンの予測子の学習に単純に失敗する可能性があります。
私たちは、教師による強制がどのように失敗するのかについての一般的なメカニズムを説明し、そのタスクが学習するのは簡単であるにもかかわらず、Transformer と Mamba アーキテクチャの両方が経験的にそのように失敗する最小限の計画タスクを設計します。
複数のトークンを事前に予測するトレーニングを行うと、この障害が解決できるという予備的な証拠を提供します。
この発見が今後の議論のきっかけとなり、次のトークンの予測パラダイムを超えた探求を促すことができることを願っています。
コードは https://github.com/gregorbachmann/Next-Token-Failures で公開しています。
要約(オリジナル)
Can a mere next-token predictor faithfully model human intelligence? We crystallize this intuitive concern, which is fragmented in the literature. As a starting point, we argue that the two often-conflated phases of next-token prediction — autoregressive inference and teacher-forced training — must be treated distinctly. The popular criticism that errors can compound during autoregressive inference, crucially assumes that teacher-forcing has learned an accurate next-token predictor. This assumption sidesteps a more deep-rooted problem we expose: in certain classes of tasks, teacher-forcing can simply fail to learn an accurate next-token predictor in the first place. We describe a general mechanism of how teacher-forcing can fail, and design a minimal planning task where both the Transformer and the Mamba architecture empirically fail in that manner — remarkably, despite the task being straightforward to learn. We provide preliminary evidence that this failure can be resolved when training to predict multiple tokens in advance. We hope this finding can ground future debates and inspire explorations beyond the next-token prediction paradigm. We make our code available under https://github.com/gregorbachmann/Next-Token-Failures
arxiv情報
著者 | Gregor Bachmann,Vaishnavh Nagarajan |
発行日 | 2024-03-11 17:47:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google