MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data

要約

大規模言語モデル (LLM) は、自然言語理解を大幅に進歩させ、強力な問題解決能力を実証しました。
これらの成功にもかかわらず、ほとんどの LLM は、複雑な推論が必要なため、依然として数学的問題の解決に苦労しています。
この論文では、新しく開発された「MathOdyssey」データセットを使用して、LLM の数学的問題解決能力を調査します。
このデータセットには、高校および大学レベルの多様な数学問題が含まれており、高度な問題解決シナリオで LLM を厳密にテストするために著名な機関の専門家によって作成され、より広範囲の主題領域をカバーしています。
MathOdyssey データセットをリソースとして AI コミュニティに提供することで、複雑な数学的問題解決における AI 機能の理解と向上に貢献することを目指しています。
Llama-3 や DBRX-Instruct などのオープンソース モデルと、GPT シリーズや Gemini モデルのクローズドソース モデルのベンチマークを実施します。
私たちの結果は、LLM は日常的なタスクや中程度に難しいタスクではうまく機能するものの、オリンピックレベルの問題や大学レベルの複雑な問題では大きな課題に直面していることを示しています。
私たちの分析では、オープンソース モデルとクローズドソース モデルの間のパフォーマンスの差が縮まっていることを示していますが、特に最も要求の厳しい問題に関しては、大きな課題が残っています。
この研究は、LLM の数学的推論を強化するための研究の継続的な必要性を強調しています。
データセット、結果、コードは公開されています。

要約(オリジナル)

Large language models (LLMs) have significantly advanced natural language understanding and demonstrated strong problem-solving abilities. Despite these successes, most LLMs still struggle with solving mathematical problems due to the intricate reasoning required. This paper investigates the mathematical problem-solving capabilities of LLMs using the newly developed ‘MathOdyssey’ dataset. The dataset includes diverse mathematical problems at high school and university levels, created by experts from notable institutions to rigorously test LLMs in advanced problem-solving scenarios and cover a wider range of subject areas. By providing the MathOdyssey dataset as a resource to the AI community, we aim to contribute to the understanding and improvement of AI capabilities in complex mathematical problem-solving. We conduct benchmarking on open-source models, such as Llama-3 and DBRX-Instruct, and closed-source models from the GPT series and Gemini models. Our results indicate that while LLMs perform well on routine and moderately difficult tasks, they face significant challenges with Olympiad-level problems and complex university-level questions. Our analysis shows a narrowing performance gap between open-source and closed-source models, yet substantial challenges remain, particularly with the most demanding problems. This study highlights the ongoing need for research to enhance the mathematical reasoning of LLMs. The dataset, results, and code are publicly available.

arxiv情報

著者 Meng Fang,Xiangpeng Wan,Fei Lu,Fei Xing,Kai Zou
発行日 2024-06-26 13:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク