要約
FinDVer は、長いハイブリッドコンテンツの財務書類を理解して分析するという文脈で、LLM の説明可能な請求検証機能を評価するために特別に設計された包括的なベンチマークです。
FinDVer には、専門家による注釈付きの 2,400 件の例が含まれており、情報抽出、数値推論、知識集約型推論の 3 つのサブセットに分かれており、それぞれが現実の金融状況で遭遇する一般的なシナリオに対応しています。
当社は、ロングコンテキストおよび RAG 設定の下で広範囲の LLM を評価します。
私たちの結果は、現在最もパフォーマンスの高いシステムである GPT-4o でさえ、依然として人間の専門家に遅れをとっていることを示しています。
さらに、長いコンテキストと RAG 設定、思考連鎖推論、モデル推論のエラーに関する詳細な分析を提供し、将来の進歩を促進するための洞察を提供します。
私たちは、FinDVer が、複雑な専門分野の文書に対する請求検証において LLM を評価するための貴重なベンチマークとして機能できると信じています。
要約(オリジナル)
We introduce FinDVer, a comprehensive benchmark specifically designed to evaluate the explainable claim verification capabilities of LLMs in the context of understanding and analyzing long, hybrid-content financial documents. FinDVer contains 2,400 expert-annotated examples, divided into three subsets: information extraction, numerical reasoning, and knowledge-intensive reasoning, each addressing common scenarios encountered in real-world financial contexts. We assess a broad spectrum of LLMs under long-context and RAG settings. Our results show that even the current best-performing system, GPT-4o, still lags behind human experts. We further provide in-depth analysis on long-context and RAG setting, Chain-of-Thought reasoning, and model reasoning errors, offering insights to drive future advancements. We believe that FinDVer can serve as a valuable benchmark for evaluating LLMs in claim verification over complex, expert-domain documents.
arxiv情報
| 著者 | Yilun Zhao,Yitao Long,Yuru Jiang,Chengye Wang,Weiyuan Chen,Hongjun Liu,Yiming Zhang,Xiangru Tang,Chen Zhao,Arman Cohan |
| 発行日 | 2024-11-08 18:26:17+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google