The Expressive Power of Transformers with Chain of Thought

要約

最近の理論的研究により、グラフ内の 2 つのノードが接続されているかどうかのチェックや有限状態マシンのシミュレーションなど、入力を読み取ったらすぐに応答する標準的な変換器では解決できないことが証明されている、驚くほど単純な推論問題が特定されています。
ただし、実際には、トランスフォーマーの推論は、「思考の連鎖」または「スクラッチパッド」を使用できるようにすることで改善できます。つまり、応答する前に一連の中間トークンを生成して条件付けすることができます。
このことを動機として、私たちは次のように問います。そのような中間生成は、デコーダのみのトランスフォーマの計算能力を根本的に拡張するのでしょうか?
答えはイエスであることがわかりますが、増加量は中間生成量に大きく依存します。
たとえば、対数的なデコード ステップ数 (入力長に対する) を備えたトランス デコーダは、標準的なトランスフォーマの限界をわずかに押し上げるだけであるのに対し、線形のデコード ステップ数では、標準のプレノルムへのわずかな一般化を前提として、
明確な新しい能力 (標準的な複雑さの予想の下で): すべての正規言語を認識します。
私たちの結果はまた、線形ステップが変換器デコーダを状況依存言語内に保ち、一般化された事前ノルムを備えた多項式ステップが多項式時間で解決可能な問題のクラスを正確に認識できるようにすることを意味します。これは、変換器の種類の最初の正確な特徴付けです。
標準の複雑さのクラス。
私たちの結果は、トランスフォーマーの思考連鎖の長さまたはスクラッチパッドが推論能力にどのように影響するかを理解するための微妙な枠組みを提供します。

要約(オリジナル)

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers’ reasoning can be improved by allowing them to use a ‘chain of thought’ or ‘scratchpad’, i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps, assuming a slight generalization to standard pre-norm, adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps with generalized pre-norm make them recognize exactly the class of polynomial-time solvable problems — the first exact characterization of a type of transformers in terms of standard complexity classes. Together, our results provide a nuanced framework for understanding how the length of a transformer’s chain of thought or scratchpad impacts its reasoning power.

arxiv情報

著者 William Merrill,Ashish Sabharwal
発行日 2024-03-20 17:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CL, cs.LG, cs.LO パーマリンク