要約
既存のベンチマークが比較的小規模で、主に小学校や高校の問題に焦点を当てているか、トピックの多様性に欠けているため、LLM における数学的スキルの現在の評価は限られています。
さらに、タスクに視覚要素を組み込むことについては、ほとんど研究が進んでいません。
これらのギャップに対処するために、教材から得た 1,100 件の未公開の大学レベルの自由解答問題からなる新しいベンチマークである U-MATH を導入します。
6 つの主要主題にわたってバランスがとれており、マルチモーダルな問題が 20% 含まれています。
U-MATH 問題のオープンエンドの性質を考慮して、生成された解の正しさを判断するために LLM を採用します。
この目的を達成するために、解決策を判断する際の LLM の能力を評価するためのデータセットである $\mu$-MATH をリリースします。
一般領域、数学固有、およびマルチモーダル LLM の評価により、U-MATH によってもたらされる課題が浮き彫りになります。
私たちの調査結果では、LLM がテキストベースのタスクで最大精度を達成できるのはわずか 63% であり、視覚的な問題ではさらに低い 45% であることが明らかになりました。
ソリューションの評価は LLM にとって難しいことが判明し、最高の LLM 審査員は $\mu$-MATH で 80% の F1 スコアを獲得しました。
要約(オリジナル)
The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release $\mu$-MATH, a dataset to evaluate the LLMs’ capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on $\mu$-MATH.
arxiv情報
著者 | Konstantin Chernyshev,Vitaliy Polshkov,Ekaterina Artemova,Alex Myasnikov,Vlad Stepanov,Alexei Miasnikov,Sergei Tilga |
発行日 | 2024-12-06 08:29:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google