DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in Understanding Long Documents with Tabular Data

要約

最近の LLM は、試験のような数学の文章問題を解く際に顕著なパフォーマンスを示しています。
ただし、これらの数値的推論スキルが現実世界のシナリオ、特に専門分野でどの程度有効であるかは、まだほとんど解明されていません。
このペーパーでは、テキストと表の両方を含む財務文書の理解と分析のコンテキストで、LLM の数値推論と問題解決能力を評価するために特別に設計された包括的なベンチマークである DocMath-Eval を紹介します。
私たちは、コーディングや財務に特化したものを含む、19 の LLM を幅広く評価します。
また、DocMath-Eval の既存の LLM の機能と制限を包括的に評価するために、さまざまなプロンプト戦略 (つまり、思考連鎖と思考プログラム) を組み込んでいます。
現在最もパフォーマンスの高いシステム (GPT-4) は、短いドキュメントのコンテキスト内で財務指標の増加率を計算するなどの単純な問題ではうまく機能するものの、その他の点では人間の専門家よりも大幅に遅れていることがわかりました。
より長い文脈に基づいた複雑な問題。
私たちは、DocMath-Eval が、専門分野における困難な数値推論問題を解決する LLM の能力を評価するための貴重なベンチマークとして使用できると信じています。
ベンチマークとコードは https://github.com/yale-nlp/DocMath-Eval でリリースされます。

要約(オリジナル)

Recent LLMs have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in expert domains, is still largely unexplored. This paper introduces DocMath-Eval, a comprehensive benchmark specifically designed to evaluate the numerical reasoning and problem-solving capabilities of LLMs in the context of understanding and analyzing financial documents containing both text and tables. We evaluate a wide spectrum of 19 LLMs, including those specialized in coding and finance. We also incorporate different prompting strategies (i.e., Chain-of-Thoughts and Program-of-Thoughts) to comprehensively assess the capabilities and limitations of existing LLMs in DocMath-Eval. We found that, although the current best-performing system (i.e., GPT-4), can perform well on simple problems such as calculating the rate of increase in a financial metric within a short document context, it significantly lags behind human experts in more complex problems grounded in longer contexts. We believe DocMath-Eval can be used as a valuable benchmark to evaluate LLMs’ capabilities to solve challenging numerical reasoning problems in expert domains. We will release the benchmark and code at https://github.com/yale-nlp/DocMath-Eval.

arxiv情報

著者 Yilun Zhao,Yitao Long,Hongjun Liu,Linyong Nan,Lyuhao Chen,Ryo Kamoi,Yixin Liu,Xiangru Tang,Rui Zhang,Arman Cohan
発行日 2023-11-16 11:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク