MARIO Eval: Evaluate Your Math LLM with your Math LLM–A mathematical dataset evaluation toolkit

要約

大規模言語モデル (LLM) は、数学的問題の解決を含むさまざまな推論タスクで研究されてきました。
通常、各数学データセットには、独自に特別に設計された評価スクリプトが含まれており、意図された用途には適していますが、異なるデータセット間での汎用性が欠けています。
その結果、これらの評価ツールの更新や適応は体系的に報告されずに行われる傾向があり、研究間の不一致や公正な比較の障害につながります。
このギャップを埋めるために、数値精度を高めるために Python 計算機代数システム (CAS) を利用するだけでなく、かなりの自然言語処理能力で知られるオプションの LLM も統合する、包括的な数学的評価ツールキットを導入します。
ツールキットの有効性を検証するために、2 つの異なるデータセットに手動でアノテーションを付けました。
私たちの実験では、LLM を使用しない場合でも、このツールキットが以前の研究と比較してより堅牢な評価結果を生成することを示しています。
さらに、LLM を組み込むと、顕著な機能強化が得られます。
私たちのメソッドのコードは、\url{https://github.com/MARIO-Math-Reasoning/math_evaluation} で公開されます。

要約(オリジナル)

Large language models (LLMs) have been explored in a variety of reasoning tasks including solving of mathematical problems. Each math dataset typically includes its own specially designed evaluation script, which, while suitable for its intended use, lacks generalizability across different datasets. Consequently, updates and adaptations to these evaluation tools tend to occur without being systematically reported, leading to inconsistencies and obstacles to fair comparison across studies. To bridge this gap, we introduce a comprehensive mathematical evaluation toolkit that not only utilizes a python computer algebra system (CAS) for its numerical accuracy, but also integrates an optional LLM, known for its considerable natural language processing capabilities. To validate the effectiveness of our toolkit, we manually annotated two distinct datasets. Our experiments demonstrate that the toolkit yields more robust evaluation results compared to prior works, even without an LLM. Furthermore, when an LLM is incorporated, there is a notable enhancement. The code for our method will be made available at \url{https://github.com/MARIO-Math-Reasoning/math_evaluation}.

arxiv情報

著者 Boning Zhang,Chengxi Li,Kai Fan
発行日 2024-04-22 07:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク