Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

要約

一連の中間ステップ、別名思考連鎖 (CoT) を生成するようにモデルに指示することは、算術および記号推論タスクにおける大規模言語モデル (LLM) の精度を向上させる非常に効果的な方法です。
ただし、CoT の背後にあるメカニズムは依然として不明です。
この研究は、表現力というレンズを通して、デコーダ専用トランスの CoT の力を理論的に理解するものです。
概念的には、CoT はモデルに本質的にシリアル計算を実行する能力を与えますが、特に深さが浅い場合、これはトランスフォーマーに欠けています。
入力長 $n$ が与えられた場合、これまでの研究では、埋め込みサイズが有限精度 $\mathsf{poly}(n)$ の定深度変換器は、CoT なしで $\mathsf{TC}^0$ の問題のみを解決できることが示されています。
まず、定数ビット精度の定深度変換器のさらに厳密な表現力の上限を示します。これは、$ \mathsf{TC}^0$ の適切なサブセットである $\mathsf{AC}^0$ の問題のみを解決できます。
ただし、CoT の $T$ ステップでは、定数ビット精度と $O(\log n)$ 埋め込みサイズを使用する定深度変換器により、サイズ $T$ のブール回路で解決できる問題はすべて解決できます。
経験的には、CoT を有効にすると、置換グループの構成、反復二乗法、回路値の問題など、並列計算が困難なタスク (特に深度の低いトランスフォーマーの場合) の精度が大幅に向上します。

要約(オリジナル)

Instructing the model to generate a sequence of intermediate steps, a.k.a., a chain of thought (CoT), is a highly effective method to improve the accuracy of large language models (LLMs) on arithmetics and symbolic reasoning tasks. However, the mechanism behind CoT remains unclear. This work provides a theoretical understanding of the power of CoT for decoder-only transformers through the lens of expressiveness. Conceptually, CoT empowers the model with the ability to perform inherently serial computation, which is otherwise lacking in transformers, especially when depth is low. Given input length $n$, previous works have shown that constant-depth transformers with finite precision $\mathsf{poly}(n)$ embedding size can only solve problems in $\mathsf{TC}^0$ without CoT. We first show an even tighter expressiveness upper bound for constant-depth transformers with constant-bit precision, which can only solve problems in $\mathsf{AC}^0$, a proper subset of $ \mathsf{TC}^0$. However, with $T$ steps of CoT, constant-depth transformers using constant-bit precision and $O(\log n)$ embedding size can solve any problem solvable by boolean circuits of size $T$. Empirically, enabling CoT dramatically improves the accuracy for tasks that are hard for parallel computation, including the composition of permutation groups, iterated squaring, and circuit value problems, especially for low-depth transformers.

arxiv情報

著者 Zhiyuan Li,Hong Liu,Denny Zhou,Tengyu Ma
発行日 2024-05-23 17:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG, stat.ML パーマリンク