On the Reasoning Capacity of AI Models and How to Quantify It

要約

大規模言語モデル (LLM) の最近の進歩により、その推論能力の基本的な性質をめぐる議論が激化しています。
これらのモデルは、GPQA や MMLU などのベンチマークでは高いパフォーマンスを達成していますが、より複雑な推論タスクでは限界があり、より厳密な評価方法の必要性が浮き彫りになっています。
私たちは、従来の精度指標を超えてモデルの動作の根底にあるメカニズムを調査する新しい現象学的アプローチを提案し、AI システムの分析と理解の方法に広く影響を与える可能性のあるフレームワークを確立します。
ケーススタディとして多肢選択推論タスクにおける位置バイアスを使用して、体系的な摂動がモデルの意思決定の基本的な側面をどのように明らかにできるかを示します。
これらの動作を分析するために、私たちは 2 つの相補的な現象論的モデルを開発します。1 つはモデルの応答を推論、記憶、推測のコンポーネントに分解する確率的混合モデル (PMM) であり、もう 1 つはモデルの信頼性と戦略の関係を定量化する情報理論的一貫性 (ITC) 分析です。
選択。
推論ベンチマークの制御された実験を通じて、現在のモデルにとって真の推論は依然として困難であり、見かけの成功は、多くの場合、純粋な論理的推論ではなく、記憶とパターンマッチングの高度な組み合わせに依存していることを示します。
より根本的には、モデルの動作は認知戦略の位相空間の基礎となるメカニズムを通じて特徴付けることができるため、精度だけがモデルの推論能力を過大評価することがよくあることを実証し、クエリに応答する際にモデルがどのように異なるアプローチのバランスを動的にとるかを明らかにします。
このフレームワークにより、現実世界の展開に対する定量的な基準が可能になり、アプリケーションは集計パフォーマンス メトリクスではなく戦略の分布に基づいて信頼性のしきい値を指定できるようになります。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have intensified the debate surrounding the fundamental nature of their reasoning capabilities. While achieving high performance on benchmarks such as GPQA and MMLU, these models exhibit limitations in more complex reasoning tasks, highlighting the need for more rigorous evaluation methodologies. We propose a novel phenomenological approach that goes beyond traditional accuracy metrics to probe the underlying mechanisms of model behavior, establishing a framework that could broadly impact how we analyze and understand AI systems. Using positional bias in multiple-choice reasoning tasks as a case study, we demonstrate how systematic perturbations can reveal fundamental aspects of model decision-making. To analyze these behaviors, we develop two complementary phenomenological models: a Probabilistic Mixture Model (PMM) that decomposes model responses into reasoning, memorization, and guessing components and an Information-Theoretic Consistency (ITC) analysis that quantifies the relationship between model confidence and strategy selection. Through controlled experiments on reasoning benchmarks, we show that true reasoning remains challenging for current models, with apparent success often relying on sophisticated combinations of memorization and pattern matching rather than genuine logical deduction. More fundamentally, we demonstrate that accuracy alone often overstates a model’s reasoning abilities, as model behavior can be characterized through underlying mechanisms in the phase space of cognitive strategies, revealing how models dynamically balance different approaches when responding to queries. This framework enables quantitative criteria for real-world deployments, allowing applications to specify reliability thresholds based on strategy distributions rather than aggregate performance metrics.

arxiv情報

著者 Santosh Kumar Radha,Oktay Goktas
発行日 2025-01-23 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, math.IT パーマリンク