要約
大規模な言語モデル(LLMS)は、複雑な問題を解決するために段階的な推論を活用します。
標準的な評価の実践には、完全な推論の痕跡を生成し、その結論で提示された最終回答の正確性を評価することが含まれます。
この論文では、次の2つの質問を提起することにより、最終的な答えへの依存に挑戦します。最終的な答えは、モデルの最適な結論を確実に表していますか?
代替の推論パスは異なる結果をもたらすことができますか?
これらの質問に答えるために、サブ考えと呼ばれる中間推論の手順を分析し、調査結果に基づいて方法を提案します。
私たちのアプローチでは、言語の手がかりに基づいて、推論トレースを連続的なサブ考えに分割することが含まれます。
まず、モデルに各中間サブ考えのエンドポイントから継続を生成するように促すことから始めます。
さまざまなサブ考えから発生するすべての完成した継続から潜在的な答えを抽出します。
最も頻繁な回答(モード)を選択することにより、これらの回答を集約すると、元の完全なトレースから導き出された答えのみに依存することと比較して、多くの場合、大幅に高い精度が得られることがわかります。
さまざまなサブ考えから導き出された答えの一貫性を分析すると、モデルの自信と正確性と相関する特性が明らかになり、信頼性の低い答えを特定する可能性が示唆されます。
さまざまなLLMSの実験と挑戦的な数学的推論データセット(AIME2024およびAIME2025)は、一貫した精度の改善を示し、利益はそれぞれ最大13 \%と10 \%に達します。
実装は、https://github.com/hammoudhasan/subthouthreasonerで入手できます。
要約(オリジナル)
Large Language Models (LLMs) leverage step-by-step reasoning to solve complex problems. Standard evaluation practice involves generating a complete reasoning trace and assessing the correctness of the final answer presented at its conclusion. In this paper, we challenge the reliance on the final answer by posing the following two questions: Does the final answer reliably represent the model’s optimal conclusion? Can alternative reasoning paths yield different results? To answer these questions, we analyze intermediate reasoning steps, termed subthoughts, and propose a method based on our findings. Our approach involves segmenting a reasoning trace into sequential subthoughts based on linguistic cues. We start by prompting the model to generate continuations from the end-point of each intermediate subthought. We extract a potential answer from every completed continuation originating from different subthoughts. We find that aggregating these answers by selecting the most frequent one (the mode) often yields significantly higher accuracy compared to relying solely on the answer derived from the original complete trace. Analyzing the consistency among the answers derived from different subthoughts reveals characteristics that correlate with the model’s confidence and correctness, suggesting potential for identifying less reliable answers. Our experiments across various LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025) show consistent accuracy improvements, with gains reaching up to 13\% and 10\% respectively. Implementation is available at: https://github.com/hammoudhasan/SubthoughtReasoner.
arxiv情報
著者 | Hasan Abed Al Kader Hammoud,Hani Itani,Bernard Ghanem |
発行日 | 2025-04-29 12:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google