要約
KnowledgeMath は、財務知識を適用して複雑な数学の文章問題を解決する際の LLM の能力を評価するために設計された新しいベンチマークです。
以前の研究と比較して、この研究は 3 つの主要な進歩を特徴としています。
まず、KnowledgeMath にはテキストと表のコンテンツを組み合わせた 1,259 の問題が含まれており、効果的に解決するには金融分野の大学レベルの知識が必要です。
次に、専門家による注釈付きの詳細なソリューション リファレンスを Python プログラム形式で提供し、LLM 評価の高品質なベンチマークを保証します。
最後に、思考連鎖や思考プログラムなどのさまざまな刺激戦略を使用して、14 の LLM を広範囲に評価します。
現在最もパフォーマンスの高いシステム (つまり、思考プログラムを備えた GPT-4) は 45.4% の精度しか達成しておらず、改善の余地がかなり残されています。
知識拡張 LLM はパフォーマンスを向上させることができますが (たとえば、GPT-3.5 では 23.9% から 32.0%)、人間の専門家の推定パフォーマンス 94% よりも大幅に低いです。
私たちは、KnowledgeMath が数学の文章問題の解決プロセスへの分野固有の知識の検索と拡張に関する将来の研究を促進できると信じています。
ベンチマークとコードは https://github.com/yale-nlp/KnowledgeMath でリリースされます。
要約(オリジナル)
We introduce KnowledgeMath, a novel benchmark designed to evaluate LLMs’ capabilities in applying financial knowledge to solve complex math word problems. Compared to prior works, this study features three core advancements. First, KnowledgeMath includes 1,259 problems with a hybrid of textual and tabular content and require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. Finally, we evaluate a wide spectrum of 14 LLMs with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. The current best-performing system (i.e., GPT-4 with Program-of-Thoughts) achieves only 45.4% accuracy, leaving substantial room for improvement. While knowledge-augmented LLMs can improve the performance (e.g., from 23.9% to 32.0% for GPT-3.5), it is still significantly lower the estimated human expert performance of 94%. We believe that KnowledgeMath can facilitate future research on domain-specific knowledge retrieval and augmentation into the math word problem-solving process. We will release the benchmark and code at https://github.com/yale-nlp/KnowledgeMath.
arxiv情報
著者 | Yilun Zhao,Hongjun Liu,Yitao Long,Rui Zhang,Chen Zhao,Arman Cohan |
発行日 | 2023-11-16 11:22:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google