要約
コード生成でLLMSを支援することで、数学的推論タスクに関するパフォーマンスが向上しました。
ただし、コード支援LLMの評価は一般に実行された正確性に限定されており、生成されたプログラムの厳密な評価がありません。
この作業では、数学の推論タスクに応じてコード支援LLMSの生成されたプログラムの詳細な分析を実施することにより、このギャップを埋めます。
私たちの評価は、LLMSがプログラムを数学ルールに根付かせる程度と、それが最終パフォーマンスにどのように影響するかに焦点を当てています。
この目的のために、手動と自動の両方で、2つの異なる数学データセットで5つの異なるLLMの世代を評価します。
私たちの結果は、接地の分布がLLMの能力と数学の問題の難しさに依存することを明らかにしています。
さらに、数学的な接地はクローズドソースモデルにより効果的ですが、オープンソースモデルはソリューションで数学ルールを正しく使用できません。
Math500では、接地プログラムの割合は半分に減少しましたが、ASDIVの学年の問題と比較して、接地されていない世代は2倍になりました。
私たちの仕事は、実行精度のメトリックを超えて、コード支援のLLMSの機能と数学ドメインの制限をよりよく理解するための詳細な評価の必要性を強調しています。
要約(オリジナル)
Assisting LLMs with code generation improved their performance on mathematical reasoning tasks. However, the evaluation of code-assisted LLMs is generally restricted to execution correctness, lacking a rigorous evaluation of their generated programs. In this work, we bridge this gap by conducting an in-depth analysis of code-assisted LLMs’ generated programs in response to math reasoning tasks. Our evaluation focuses on the extent to which LLMs ground their programs to math rules, and how that affects their end performance. For this purpose, we assess the generations of five different LLMs, on two different math datasets, both manually and automatically. Our results reveal that the distribution of grounding depends on LLMs’ capabilities and the difficulty of math problems. Furthermore, mathematical grounding is more effective for closed-source models, while open-source models fail to employ math rules in their solutions correctly. On MATH500, the percentage of grounded programs decreased to half, while the ungrounded generations doubled in comparison to ASDiv grade-school problems. Our work highlights the need for in-depth evaluation beyond execution accuracy metrics, toward a better understanding of code-assisted LLMs’ capabilities and limits in the math domain.
arxiv情報
著者 | Zena Al-Khalili,Nick Howell,Dietrich Klakow |
発行日 | 2025-04-24 15:34:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google