MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs

要約

大規模言語モデル (LLM) は、主にステップバイステップの思考連鎖推論プロセスに基づいて、問題解決と意思決定の能力が向上していることが示されています。
しかし、これらの推論能力を評価することはますます困難になってきています。
既存の成果ベースのベンチマークは飽和し始めており、有意義な進歩を追跡する効果が薄れてきています。
これに対処するために、メタ推論スキルを必要とするプロセスベースのベンチマーク MR-Ben を紹介します。このベンチマークでは、LM は、自動的に生成された推論ステップで潜在的なエラーを見つけて分析するように求められます。
私たちのメタ推論パラダイムは、システム 2 の遅い思考に特に適しており、仮定、条件、計算、ロジックを慎重に調べて間違いを特定する人間の認知プロセスを反映しています。MR-Ben は、幅広い分野にわたる人間の専門家によって厳選された 5,975 の質問で構成されています。
物理学、化学、論理、コーディングなどの科目。
このベンチマークでメタ推論を評価するために設計された指標を通じて、現在の LLM (オープンソース モデルとクローズドソース モデル) の興味深い制限と弱点を特定します。
たとえば、OpenAI の o1 シリーズのようなモデルは、ソリューション空間を効果的に精査することで強力なパフォーマンスを示していますが、他の多くの最先端のモデルは MR-Ben に大きく遅れをとっており、トレーニング戦略や推論方法論に潜在的な欠陥があることが明らかになりました。

要約(オリジナル)

Large language models (LLMs) have shown increasing capability in problem-solving and decision-making, largely based on the step-by-step chain-of-thought reasoning processes. However, evaluating these reasoning abilities has become increasingly challenging. Existing outcome-based benchmarks are beginning to saturate, becoming less effective in tracking meaningful progress. To address this, we present a process-based benchmark MR-Ben that demands a meta-reasoning skill, where LMs are asked to locate and analyse potential errors in automatically generated reasoning steps. Our meta-reasoning paradigm is especially suited for system-2 slow thinking, mirroring the human cognitive process of carefully examining assumptions, conditions, calculations, and logic to identify mistakes.MR-Ben comprises 5,975 questions curated by human experts across a wide range of subjects, including physics, chemistry, logic, coding, and more. Through our designed metrics for assessing meta-reasoning on this benchmark, we identify interesting limitations and weaknesses of current LLMs (open-source and closed-source models). For example, with models like the o1 series from OpenAI demonstrating strong performance by effectively scrutinizing the solution space, many other state-of-the-art models fall significantly behind on MR-Ben, exposing potential shortcomings in their training strategies and inference methodologies.

arxiv情報

著者 Zhongshen Zeng,Yinhong Liu,Yingjia Wan,Jingyao Li,Pengguang Chen,Jianbo Dai,Yuxuan Yao,Rongwu Xu,Zehan Qi,Wanru Zhao,Linling Shen,Jianqiao Lu,Haochen Tan,Yukang Chen,Hao Zhang,Zhan Shi,Bailin Wang,Zhijiang Guo,Jiaya Jia
発行日 2024-12-20 12:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク