RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

要約

最近の大規模な言語モデル(LLMS)は、ベンチマークの推論の精度が高いと報告しています。
ただし、観察された結果が真の推論から生じるのか、トレーニングセットの統計的リコールから生じるのかはまだ不明です。
因果関係のはしご(Pearl、2009)とその3つのレベル(関連性、介入、および反事実)に触発されたこのペーパーでは、LLMSの推論能力の階層を特徴付けるフレームワークであるRemagineを紹介します。
中間的な象徴的な表現の問題を変更することにより、再想像すると、暗記だけを使用して解決できない多くの問題を任意に生成します。
さらに、フレームワークは一般的であり、数学、コード、ロジックなど、推論ドメイン全体で動作することができます。
LLMSのいくつかのファミリーを評価するために、4つの広く使用されているベンチマークでフレームワークを実証し、問題のバリエーションでモデルが照会されたときにパフォーマンスの低下を観察します。
これらの評価は、過去のパフォーマンスの統計的リコールに依存していることを示しており、推論階層全体でスキルをターゲットにするためのさらなる研究への扉を開きます。

要約(オリジナル)

Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.

arxiv情報

著者 Xinnuo Xu,Rachel Lawrence,Kshitij Dubey,Atharva Pandey,Risa Ueno,Fabian Falck,Aditya V. Nori,Rahul Sharma,Amit Sharma,Javier Gonzalez
発行日 2025-06-18 13:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク