要約
大規模な言語モデルは、顕著な推論能力を示しており、スケーリング法則は、特に深さ軸に沿って大きなパラメーター数が主要なドライバーであることを示唆しています。
この作業では、より強力な主張をします – 多くの推論の問題には大きな深さが必要ですが、必ずしも多くのパラメーターが必要ではありません。
これにより、推論のためにループモデルの新しいアプリケーションが解除されます。
第一に、追加、$ p $ -hop誘導、数学の問題など、多くの合成推論の問題について、$ k $ -layerの変圧器がループした$ l $タイムは、$ kl $ -layerのパフォーマンスにほぼ一致していることを示しています。
モデル、および$ k $ -layerモデルよりも大幅に優れています。
これは、このような推論の問題が反復アルゴリズムを介して解決できることを示す理論的結果によってさらに裏付けられており、したがって、ほぼ最適な深さのループモデルを使用して効果的に解決できます。
おそらく驚くべきことに、これらの利点は言語モデリングの実用的な設定にも変換されます。多くの下流の推論タスクでは、$ k $ -Layersがループした言語モデルは、$ kl $ – よりも優れていても競争力があります。
レイヤー言語モデル。
実際、私たちの経験的分析は、興味をそそる現象を明らかにしています。ループされたモデルと非ループされたモデルは、考え方(COT)の推論の推論時のスケーリングに似た、効果的な深さに依存するスケーリング動作を示します。
さらに、ループモデルが潜在的な思考を暗黙的に生成し、$ t $ループで$ t $ステップをシミュレートできることを証明することにより、COT推論への接続を解明します。
これらの発見に触発されて、私たちはまた、推論と暗記の間の興味深い二分法を提示し、両方の面で効果的なループベースの正則化を設計します。
要約(オリジナル)
Large language models have shown remarkable reasoning abilities and scaling laws suggest that large parameter count, especially along the depth axis, is the primary driver. In this work, we make a stronger claim — many reasoning problems require a large depth but not necessarily many parameters. This unlocks a novel application of looped models for reasoning. Firstly, we show that for many synthetic reasoning problems like addition, $p$-hop induction, and math problems, a $k$-layer transformer looped $L$ times nearly matches the performance of a $kL$-layer non-looped model, and is significantly better than a $k$-layer model. This is further corroborated by theoretical results showing that many such reasoning problems can be solved via iterative algorithms, and thus, can be solved effectively using looped models with nearly optimal depth. Perhaps surprisingly, these benefits also translate to practical settings of language modeling — on many downstream reasoning tasks, a language model with $k$-layers looped $L$ times can be competitive to, if not better than, a $kL$-layer language model. In fact, our empirical analysis reveals an intriguing phenomenon: looped and non-looped models exhibit scaling behavior that depends on their effective depth, akin to the inference-time scaling of chain-of-thought (CoT) reasoning. We further elucidate the connection to CoT reasoning by proving that looped models implicitly generate latent thoughts and can simulate $T$ steps of CoT with $T$ loops. Inspired by these findings, we also present an interesting dichotomy between reasoning and memorization, and design a looping-based regularization that is effective on both fronts.
arxiv情報
著者 | Nikunj Saunshi,Nishanth Dikkala,Zhiyuan Li,Sanjiv Kumar,Sashank J. Reddi |
発行日 | 2025-02-24 18:49:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google