要約
知識集約的な数学推論問題を解決する際の LLM の能力を評価するために設計された新しいベンチマークである FinanceMath を紹介します。
以前の研究と比較して、この研究は 3 つの主要な進歩を特徴としています。
まず、FinanceMath には、テキストと表形式のコンテンツを組み合わせた 1,200 の問題が含まれています。
これらの問題を効果的に解決するには、金融分野における大学レベルの知識が必要です。
次に、専門家による注釈付きの詳細なソリューション リファレンスを Python プログラム形式で提供し、LLM 評価の高品質なベンチマークを保証します。
また、金融領域のナレッジバンクを構築し、さまざまなナレッジ統合戦略を検討します。
最後に、思考連鎖と思考プログラムの両方のプロンプト手法を使用して、44 の LLM の広範囲を評価します。
私たちの実験結果は、現在最高のパフォーマンスを発揮するシステム (つまり GPT-4o) が CoT プロンプトを使用しても 60.9% の精度しか達成できず、改善の余地がかなりあることを明らかにしています。
さらに、外部の知識で LLM を強化すると、モデルのパフォーマンスを向上させることができますが (たとえば、Gemini-1.5-Pro では 47.5% から 54.5% に)、その精度は人間の専門家による推定パフォーマンスの 92% よりも大幅に低いままです。
私たちは、FinanceMath が、特に推論集約型のタスクを解決するという文脈において、ドメイン固有の知識の検索と統合の分野における将来の研究を前進させることができると信じています。
要約(オリジナル)
We introduce FinanceMath, a novel benchmark designed to evaluate LLMs’ capabilities in solving knowledge-intensive math reasoning problems. Compared to prior works, this study features three core advancements. First, FinanceMath includes 1,200 problems with a hybrid of textual and tabular content. These problems require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. We also construct a finance-domain knowledge bank and investigate various knowledge integration strategies. Finally, we evaluate a wide spectrum of 44 LLMs with both Chain-of-Thought and Program-of-Thought prompting methods. Our experimental results reveal that the current best-performing system (i.e., GPT-4o) achieves only 60.9% accuracy using CoT prompting, leaving substantial room for improvement. Moreover, while augmenting LLMs with external knowledge can improve model performance (e.g., from 47.5% to 54.5% for Gemini-1.5-Pro), their accuracy remains significantly lower than the estimated human expert performance of 92%. We believe that FinanceMath can advance future research in the area of domain-specific knowledge retrieval and integration, particularly within the context of solving reasoning-intensive tasks.
arxiv情報
著者 | Yilun Zhao,Hongjun Liu,Yitao Long,Rui Zhang,Chen Zhao,Arman Cohan |
発行日 | 2024-08-08 15:45:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google