Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs

要約

Chain-of-Thought(CoT)プロンプトは、詳細なステップバイステップの解答を可能にすることで、大規模言語モデル(LLM)における数学的推論を強化する。しかし、LLMの冗長性により、結果として得られる推論チェーンは長くなり、推論ステップの検証や、ステップのシーケンスで遠くにあるかもしれないステップ間の依存関係から生じる問題の追跡が難しくなる。重要なことは、数学的推論では、各ステップは、推論チェーン内の先行ステップのサブセットである小さな前提セットから導出することができる。本論文では、推論の評価を向上させるために、各ステップの前提を特定するフレームワークを提示する。前提リンクを導入することにより、従来の線形推論連鎖を前提拡張推論連鎖(PARC)に再構築し、ノードをステップ、エッジを前提リンクとする有向無サイクルグラフを実現する。我々が構築したPARCベースのデータセットであるPERL(Premises and ERrors identification in LLMs)を用いた実験を通して、LLMが複雑な推論連鎖内の前提を確実に識別できることを実証する。特に、オープンソースのLLMでも、前提識別において90%の再現率を達成している。また、PARCが推論連鎖の誤りをより確実に識別できることも示す。PARCで前提を段階的に検証することで、エラーの特定精度は6%から16%向上する。我々の発見は、複雑な問題解決タスクに対処するための前提中心の表現の有用性を強調し、LLMに基づく推論評価の信頼性を向上させるための新たな道を開くものである。

要約(オリジナル)

Chain-of-Thought (CoT) prompting enhances mathematical reasoning in large language models (LLMs) by enabling detailed step-by-step solutions. However, due to the verbosity of LLMs, the resulting reasoning chains can be long, making it harder to verify the reasoning steps and trace issues resulting from dependencies between the steps that may be farther away in the sequence of steps. Importantly, mathematical reasoning allows each step to be derived from a small set of premises, which are a subset of the preceding steps in the reasoning chain. In this paper, we present a framework that identifies the premises for each step, to improve the evaluation of reasoning. We restructure conventional linear reasoning chains into Premise Augmented Reasoning Chains (PARC) by introducing premise links, resulting in a directed acyclic graph where the nodes are the steps and the edges are the premise links. Through experiments with a PARC-based dataset that we built, namely PERL (Premises and ERrors identification in LLMs), we demonstrate that LLMs can reliably identify premises within complex reasoning chains. In particular, even open-source LLMs achieve 90% recall in premise identification. We also show that PARC helps to identify errors in reasoning chains more reliably. The accuracy of error identification improves by 6% to 16% absolute when step-by-step verification is carried out in PARC under the premises. Our findings highlight the utility of premise-centric representations in addressing complex problem-solving tasks and open new avenues for improving the reliability of LLM-based reasoning evaluations.

arxiv情報

著者 Sagnik Mukherjee,Abhinav Chinta,Takyoung Kim,Tarun Anoop Sharma,Dilek Hakkani Tur
発行日 2025-02-04 14:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク