要約
最近の LLM は、試験のような数学の文章問題を解く際に顕著なパフォーマンスを示しています。
ただし、これらの数値的推論スキルが現実世界のシナリオ、特に専門分野でどの程度有効であるかは、まだほとんど解明されていません。
このペーパーでは、テキストと表の両方を含む特殊な文書を理解および分析するというコンテキストで LLM の数値推論能力を評価するために特別に設計された包括的なベンチマークである DocMath-Eval を紹介します。
DocMath-Eval で既存の LLM の機能と制限を包括的に評価することを目的として、思考連鎖および思考プログラムのプロンプト手法を使用して 48 の LLM を広範囲に評価します。
現在最高のパフォーマンスを誇るシステム (GPT-4o) でさえ、長い文脈に基づいた複雑な数値推論問題を解決する点では人間の専門家に比べて依然として大幅に遅れていることがわかりました。
私たちは、DocMath-Eval が、エキスパート ドメイン内の困難な数値推論問題を解決する際の LLM の能力を評価するための貴重なベンチマークとして機能できると信じています。
要約(オリジナル)
Recent LLMs have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in expert domains, is still largely unexplored. This paper introduces DocMath-Eval, a comprehensive benchmark specifically designed to evaluate the numerical reasoning capabilities of LLMs in the context of understanding and analyzing specialized documents containing both text and tables. We evaluate a wide spectrum of 48 LLMs with Chain-of-Thought and Program-of-Thought prompting methods, aiming to comprehensively assess the capabilities and limitations of existing LLMs in DocMath-Eval. We found that even the current best-performing system (i.e., GPT-4o) still significantly lags behind human experts in solving complex numerical reasoning problems grounded in long contexts. We believe that DocMath-Eval can serve as a valuable benchmark for evaluating LLMs’ capabilities in solving challenging numerical reasoning problems within expert domains.
arxiv情報
著者 | Yilun Zhao,Yitao Long,Hongjun Liu,Ryo Kamoi,Linyong Nan,Lyuhao Chen,Yixin Liu,Xiangru Tang,Rui Zhang,Arman Cohan |
発行日 | 2024-08-08 15:56:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google