DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning

要約

Olympiadレベルの推論の問題での大きなパフォーマンスにもかかわらず、フロンティアの大規模な言語モデルは、標準ベンチマーク以外の新しい問題を提示すると、高校の数学に苦労する可能性があります。
最終的な精度を超えて、言語モデル(LMS)からの思考チェーン出力を分析するための演ductive的な一貫性メトリックを提案します。形成的には、演ductiveな推論には2つのサブタスクが含まれます。
提案されたメトリック研究は、これらのサブタスクでLMSのパフォーマンスを研究し、LMSの新しい問題に関する推論エラーを説明することを目標としています。LMSは、コンテキストの長さを増やすことで入力前提をどの程度理解していますか?
既存のベンチマークが記憶される可能性があるため、パイプラインを開発して、ベンチマーク問題の新規で乱したバージョンでのLMSの演ductive的な一貫性を評価します。
新しい小学校の数学の問題(GSM-8K)では、LMSは入力施設の数を増やすことに対してかなり堅牢であるが、推論ホップの数が増加するにつれて重大な精度が崩壊することがわかります。
興味深いことに、これらのエラーは、すべてのモデルがほぼ100%の精度を達成するため、元のベンチマークにマスクされています。
合成データセットを使用してソリューションステップの数を増やすにつれて、複数のホップの予測は、入力前の施設を理解することと比較して、依然として主要なエラーの原因となっています。
言語スタイルの変化や早期エラーの自然な伝播などの他の要因は、傾向を説明していません。
私たちの分析は、LMの推論を特徴付ける新しいビューを提供します – 入力施設のウィンドウと推論ホップの計算として – 問題ドメイン全体で統一された評価を提供できます。

要約(オリジナル)

Despite great performance on Olympiad-level reasoning problems, frontier large language models can still struggle on high school math when presented with novel problems outside standard benchmarks. Going beyond final accuracy, we propose a deductive consistency metric to analyze chain-of-thought output from language models (LMs).Formally, deductive reasoning involves two subtasks: understanding a set of input premises and inferring the conclusions that follow from them. The proposed metric studies LMs’ performance on these subtasks, with the goal of explaining LMs’ reasoning errors on novel problems: how well do LMs understand input premises with increasing context lengths, and how well can they infer conclusions over multiple reasoning hops? Since existing benchmarks may be memorized, we develop a pipeline to evaluate LMs’ deductive consistency on novel, perturbed versions of benchmark problems. On novel grade school math problems (GSM-8k), we find that LMs are fairly robust to increasing number of input premises, but suffer significant accuracy decay as the number of reasoning hops is increased. Interestingly, these errors are masked in the original benchmark as all models achieve near 100% accuracy. As we increase the number of solution steps using a synthetic dataset, prediction over multiple hops still remains the major source of error compared to understanding input premises. Other factors, such as shifts in language style or natural propagation of early errors do not explain the trends. Our analysis provides a new view to characterize LM reasoning — as computations over a window of input premises and reasoning hops — that can provide unified evaluation across problem domains.

arxiv情報

著者 Atharva Pandey,Kshitij Dubey,Rahul Sharma,Amit Sharma
発行日 2025-04-09 17:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク