Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers

要約

考え方の推論とスクラッチパッドは、変圧器の計算能力を強化するための重要なツールとして浮上しています。
理論的な結果は、多項式長のスクラッチパッドがトランスの表現力を$ tc^0 $から$ ptime $に拡張できることを示していますが、必要な長さはよく理解されていないままです。
経験的証拠は、パリティや乗算など、$ tc^0 $の多くの問題に対しても、トランスがスクラッチパッドを必要とすることさえ示唆しています。
この作業では、ハードアテンション体制におけるさまざまなアルゴリズム問題にわたるCOTステップの数の系統的な下限の研究を開始します。
さまざまなアルゴリズムの問​​題を研究し、対数要因にぴったりの境界を提供します。
全体として、これらの結果は、考え方の推論の力と限界に対する新たな理解に貢献します。

要約(オリジナル)

Chain-of-thought reasoning and scratchpads have emerged as critical tools for enhancing the computational capabilities of transformers. While theoretical results show that polynomial-length scratchpads can extend transformers’ expressivity from $TC^0$ to $PTIME$, their required length remains poorly understood. Empirical evidence even suggests that transformers need scratchpads even for many problems in $TC^0$, such as Parity or Multiplication, challenging optimistic bounds derived from circuit complexity. In this work, we initiate the study of systematic lower bounds for the number of CoT steps across different algorithmic problems, in the hard-attention regime. We study a variety of algorithmic problems, and provide bounds that are tight up to logarithmic factors. Overall, these results contribute to emerging understanding of the power and limitations of chain-of-thought reasoning.

arxiv情報

著者 Alireza Amiri,Xinting Huang,Mark Rofin,Michael Hahn
発行日 2025-03-20 15:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG パーマリンク