Evaluating Mathematical Reasoning Beyond Accuracy

要約

数学的タスクにおける大規模言語モデル (LLM) のリーダーボードは継続的に更新されています。
しかし、評価の大部分は最終結果のみに焦点を当てており、中間段階の品質は無視されています。
この見落としにより、論理エラーや推論プロセスにおける不必要なステップなどの根本的な問題が隠れてしまう可能性があります。
最終的な回答の精度を超えて推論を測定するために、推論ステップの品質を評価するための新しい方法論である ReasonEval を導入します。
ReasonEval は、$\textit{validity}$ と $\textit{redundancy}$ を使用して推論の品質を特徴付け、付随する LLM を使用して推論の品質を自動的に評価します。
強力な数学的知識を持ち、高品質のラベル付きデータでトレーニングされたベース モデルによってインスタンス化された ReasonEval は、人間がラベル付けしたデータセットで最先端のパフォーマンスを実現し、摂動によって生成されるさまざまなタイプのエラーを正確に検出できます。
数学に特化した LLM の評価に適用すると、最終解答の精度が向上しても、難しい数学問題に対する推論ステップの全体的な品質の向上が必ずしも保証されるわけではないことがわかります。
さらに、ReasonEval がデータ選択において重要な役割を果たすことができることがわかりました。
最高のパフォーマンスのモデル、メタ評価スクリプト、およびすべての評価結果を https://github.com/GAIR-NLP/ReasonEval でリリースします。

要約(オリジナル)

The leaderboard of Large Language Models (LLMs) in mathematical tasks has been continuously updated. However, the majority of evaluations focus solely on the final results, neglecting the quality of the intermediate steps. This oversight can mask underlying problems, such as logical errors or unnecessary steps in the reasoning process. To measure reasoning beyond final-answer accuracy, we introduce ReasonEval, a new methodology for evaluating the quality of reasoning steps. ReasonEval employs $\textit{validity}$ and $\textit{redundancy}$ to characterize the reasoning quality, as well as accompanying LLMs to assess them automatically. Instantiated by base models that possess strong mathematical knowledge and trained with high-quality labeled data, ReasonEval achieves state-of-the-art performance on human-labeled datasets and can accurately detect different types of errors generated by perturbation. When applied to evaluate LLMs specialized in math, we find that an increase in final-answer accuracy does not necessarily guarantee an improvement in the overall quality of the reasoning steps for challenging mathematical problems. Additionally, we observe that ReasonEval can play a significant role in data selection. We release the best-performing model, meta-evaluation script, and all evaluation results at https://github.com/GAIR-NLP/ReasonEval.

arxiv情報

著者 Shijie Xia,Xuefeng Li,Yixin Liu,Tongshuang Wu,Pengfei Liu
発行日 2024-04-08 17:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク