Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective

要約

最近の研究では、特に数学や推論を含む複雑なタスクを扱う場合、思考連鎖プロンプト (CoT) によって大規模言語モデル (LLM) のパフォーマンスが劇的に向上することが判明しました。
実証的には大きな成功を収めているにもかかわらず、CoT の背後にある根本的なメカニズムと、CoT が LLM の可能性をどのように解き放つのかは依然として解明されていません。
この論文では、これらの質問に理論的に答えるための第一歩を踏み出します。
具体的には、基本的な数学的および意思決定の問題を解決する際の CoT を備えた LLM の能力を調べます。
まず、モデル サイズが入力長に対して超多項式に増大しない限り、深さ制限のある Transformer は基本的な算術/方程式タスクの正しい答えを直接出力できないことを示す、不可能な結果を​​与えることから始めます。
対照的に、一般的に使用される数学言語形式を使用して CoT 導出を生成することにより、一定サイズの自己回帰トランスフォーマーが両方のタスクを解決するのに十分であることを構築によって証明します。
さらに、CoT を備えた LLM が、動的プログラミングとして知られる一般的なクラスの意思決定問題を解決できることを示し、したがって、現実世界の複雑なタスクに取り組む際の LLM の威力が正当化されます。
最後に、4 つのタスクに関する広範な実験により、トランスフォーマーは常に答えを直接予測することはできませんが、十分な CoT のデモンストレーションがあれば、正しい解決策を段階的に生成する方法を一貫して学習できることがわかりました。

要約(オリジナル)

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the capacity of LLMs with CoT in solving fundamental mathematical and decision-making problems. We start by giving an impossibility result showing that any bounded-depth Transformer cannot directly output correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of a constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, we show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, extensive experiments on four tasks show that, while Transformers always fail to predict the answers directly, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.

arxiv情報

著者 Guhao Feng,Yuntian Gu,Bohang Zhang,Haotian Ye,Di He,Liwei Wang
発行日 2023-05-24 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CL, cs.LG, stat.ML パーマリンク