要約
思考の連鎖(CoT)推論は言語モデルの性能を向上させるが、単純な問題では非効率な「考えすぎ」につながることが多い。我々は、推論の長さに直接ペナルティを与える既存のアプローチでは、問題の複雑さが変化することを考慮できないことを明らかにする。我々のアプローチは、解の正しさと簡潔さを同時に高める理論的仮定に導かれ、長さと質の比較を通して報酬を構成する。さらに、グランドトゥルースが利用できないファジーなタスクに対しても、我々の手法を実証する。複数の推論ベンチマークにわたる実験により、我々の手法が精度を維持しつつ、より簡潔な説明を生成し、「必要なときに考える」ことを効果的にモデルに教えることが実証された。
要約(オリジナル)
Chain of Thought (CoT) reasoning enhances language models’ performance but often leads to inefficient ‘overthinking’ on simple problems. We identify that existing approaches directly penalizing reasoning length fail to account for varying problem complexity. Our approach constructs rewards through length and quality comparisons, guided by theoretical assumptions that jointly enhance solution correctness with conciseness. Moreover, we further demonstrate our method to fuzzy tasks where ground truth is unavailable. Experiments across multiple reasoning benchmarks demonstrate that our method maintains accuracy while generating significantly more concise explanations, effectively teaching models to ‘think when needed.’
arxiv情報
著者 | Junjie Yang,Ke Lin,Xing Yu |
発行日 | 2025-04-04 07:34:01+00:00 |
arxivサイト | arxiv_id(pdf) |