When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

要約

推論強化された大規模な言語モデル(RLLM)は、推論のために明示的に訓練されているか、チェーンオブ考え(COT)を介して促されたかにかかわらず、多くの複雑な推論タスクで最先端のパフォーマンスを達成しました。
ただし、驚くべき、以前は見落とされていた現象を明らかにしています。明示的なCOTの推論は、命令に従う精度を大幅に低下させる可能性があります。
2つのベンチマークで15のモデルを評価する:ifeval(単純なルール検証可能な制約を備えた)と複雑なベンチ(複雑な構成制約付き)では、COTプロンプトが適用されたときにパフォーマンスの低下を一貫して観察します。
大規模なケーススタディと注意ベースの分析を通じて、推論が役立つ(例えば、フォーマットまたは語彙精度)または痛い(例えば、単純な制約を無視したり、不必要なコンテンツを導入したりすることにより)を特定します。
生成中のモデルフォーカスを定量化し、COTの推論がしばしば指導に関連するトークンから注意をそらすことが多いことを示すために、メトリックの制約の注意を提案します。
これらの効果を緩和するために、コンテキスト内の学習、自己反省、自己選択的推論、分類器選択の推論の4つの戦略を導入および評価します。
私たちの結果は、選択的推論戦略、特に分類器選択の推論が、パフォーマンスの損失を大幅に回復できることを示しています。
私たちの知る限り、これは、指導に誘発される推論による障害を体系的に公開し、実用的な緩和戦略を提供する最初の作業です。

要約(オリジナル)

Reasoning-enhanced large language models (RLLMs), whether explicitly trained for reasoning or prompted via chain-of-thought (CoT), have achieved state-of-the-art performance on many complex reasoning tasks. However, we uncover a surprising and previously overlooked phenomenon: explicit CoT reasoning can significantly degrade instruction-following accuracy. Evaluating 15 models on two benchmarks: IFEval (with simple, rule-verifiable constraints) and ComplexBench (with complex, compositional constraints), we consistently observe performance drops when CoT prompting is applied. Through large-scale case studies and an attention-based analysis, we identify common patterns where reasoning either helps (e.g., with formatting or lexical precision) or hurts (e.g., by neglecting simple constraints or introducing unnecessary content). We propose a metric, constraint attention, to quantify model focus during generation and show that CoT reasoning often diverts attention away from instruction-relevant tokens. To mitigate these effects, we introduce and evaluate four strategies: in-context learning, self-reflection, self-selective reasoning, and classifier-selective reasoning. Our results demonstrate that selective reasoning strategies, particularly classifier-selective reasoning, can substantially recover lost performance. To our knowledge, this is the first work to systematically expose reasoning-induced failures in instruction-following and offer practical mitigation strategies.

arxiv情報

著者 Xiaomin Li,Zhou Yu,Zhiwei Zhang,Xupeng Chen,Ziji Zhang,Yingying Zhuang,Narayanan Sadagopan,Anurag Beniwal
発行日 2025-05-16 16:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク