The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning

要約

明示的な説明的理論的根拠の生成を通じて、大規模な言語モデル(LLM)の推論能力を強化する能力について、チェーンオブ思考(COT)プロンプトが広く認識されています。
しかし、私たちの研究は、この一般的な視点に対する驚くべき矛盾を明らかにしています。
16の最先端のLLMSと9つの多様なパターンベースのコンテキスト学習(ICL)データセットを含む広範な実験を通じて、COTとその推論バリアントは、さまざまなモデルスケールとベンチマークの複雑さにわたって直接回答を一貫してパフォーマンスしていることを実証します。
この予期しない現象を体系的に調査するために、いくつかの仮想的な説明を検証するために広範な実験を設計しました。
私たちの分析は、パターンベースのICLにおけるCOTのパフォーマンスを駆動する基本的な明示的な二重性を明らかにします。一方、LLMSがデモンストレーションから根本的なパターンを推測するための闘争による明示的な推論は、COTの理論的根拠の補償の増加により破壊され、補償の補償に伴う暗黙的な推論が破壊され、適切な回答にもかかわらず、正解の回答が崩壊します。
この二重性は、暗黙のメカニズムが部分的に回収された場合でも、弱い明示的な推論からのノイズがプロセスを損なうため、COTの相対的なパフォーマンスを説明しています。
特に、抽象的および象徴的な推論に優れているロングコットの推論モデルでさえ、計算コストが高いにもかかわらず、これらの制限を完全に克服できません。
私たちの調査結果は、COTの普遍的な有効性に関する既存の仮定に挑戦し、その限界に関する新しい洞察をもたらし、LLMSのより微妙で効果的な推論方法に将来の研究を導きます。

要約(オリジナル)

Chain-of-Thought (CoT) prompting has been widely recognized for its ability to enhance reasoning capabilities in large language models (LLMs) through the generation of explicit explanatory rationales. However, our study reveals a surprising contradiction to this prevailing perspective. Through extensive experiments involving 16 state-of-the-art LLMs and nine diverse pattern-based in-context learning (ICL) datasets, we demonstrate that CoT and its reasoning variants consistently underperform direct answering across varying model scales and benchmark complexities. To systematically investigate this unexpected phenomenon, we designed extensive experiments to validate several hypothetical explanations. Our analysis uncovers a fundamental explicit-implicit duality driving CoT’s performance in pattern-based ICL: while explicit reasoning falters due to LLMs’ struggles to infer underlying patterns from demonstrations, implicit reasoning-disrupted by the increased contextual distance of CoT rationales-often compensates, delivering correct answers despite flawed rationales. This duality explains CoT’s relative underperformance, as noise from weak explicit inference undermines the process, even as implicit mechanisms partially salvage outcomes. Notably, even long-CoT reasoning models, which excel in abstract and symbolic reasoning, fail to fully overcome these limitations despite higher computational costs. Our findings challenge existing assumptions regarding the universal efficacy of CoT, yielding novel insights into its limitations and guiding future research toward more nuanced and effective reasoning methodologies for LLMs.

arxiv情報

著者 Tianshi Zheng,Yixiang Chen,Chengxi Li,Chunyang Li,Qing Zong,Haochen Shi,Baixuan Xu,Yangqiu Song,Ginny Y. Wong,Simon See
発行日 2025-04-07 13:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク