要約
このペーパーでは、18の言語と4つの難易度レベルをカバーする多言語の数学的推論ベンチマークであるPolymathを紹介します。
当社のベンチマークは、困難な包括性、言語の多様性、高品質の翻訳を保証し、LLMSの推論時代における非常に差別的な多言語の数学的ベンチマークとなっています。
高度なLLMSの包括的な評価を実施し、QWEN-3-235B-A22B-A22B-A22B-THINKINGおよびGEMINI-2.5-PROでさえ、54.6および52.2のベンチマークスコアのみを達成し、言語の観点から最高レベルで約40%の精度を達成します。
LLMS;
(2)入出力言語の一貫性は、LLMSの推論では低く、パフォーマンスと相関する可能性があります。
(3)思考長は、現在のLLMの言語によって大きく異なります。
さらに、指示で出力言語を制御することは、特にいくつかの低リソース言語で推論パフォーマンスに影響を与える可能性があることを実証し、LLMSの多言語機能を改善するための有望な方向性を示唆しています。
要約(オリジナル)
In this paper, we introduce PolyMath, a multilingual mathematical reasoning benchmark covering 18 languages and 4 easy-to-hard difficulty levels. Our benchmark ensures difficulty comprehensiveness, language diversity, and high-quality translation, making it a highly discriminative multilingual mathematical benchmark in the era of reasoning LLMs. We conduct a comprehensive evaluation for advanced LLMs and find that even Qwen-3-235B-A22B-Thinking and Gemini-2.5-pro, achieve only 54.6 and 52.2 benchmark scores, with about 40% accuracy under the highest level From a language perspective, our benchmark reveals several key challenges of LLMs in multilingual reasoning: (1) Reasoning performance varies widely across languages for current LLMs; (2) Input-output language consistency is low in reasoning LLMs and may be correlated with performance; (3) The thinking length differs significantly by language for current LLMs. Additionally, we demonstrate that controlling the output language in the instructions has the potential to affect reasoning performance, especially for some low-resource languages, suggesting a promising direction for improving multilingual capabilities in LLMs.
arxiv情報
著者 | Yiming Wang,Pei Zhang,Jialong Tang,Haoran Wei,Baosong Yang,Rui Wang,Chenshu Sun,Feitong Sun,Jiran Zhang,Junxuan Wu,Qiqian Cang,Yichang Zhang,Fei Huang,Junyang Lin,Fei Huang,Jingren Zhou |
発行日 | 2025-04-30 13:10:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google