Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs

要約

大規模言語モデル (LLM) は、テキストの理解と表形式の推論タスクにおいて優れたパフォーマンスを示します。
ただし、テキストと表形式のデータを含むハイブリッド テキストを理解して分析する能力は、まだ十分に解明されていません。
この研究では、LLM の可能性を活用して、ハイブリッドな長い文書である財務報告書からの重要な情報を理解することに特化しています。
私たちは、LLM が財務報告書から情報を理解して抽出する能力を強化する自動財務情報抽出 (AFIE) フレームワークを提案します。
AFIE を評価するために、Financial Reports Numerical Extraction (FINE) データセットを開発し、広範な実験分析を実施します。
私たちのフレームワークは GPT-3.5 と GPT-4 で効果的に検証されており、単純な方法と比較して、平均精度がそれぞれ 53.94% と 33.77% 向上しました。
これらの結果は、AFIE フレームワークが複雑なハイブリッド文書からの自動数値抽出の精度を提供することを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate exceptional performance in textual understanding and tabular reasoning tasks. However, their ability to comprehend and analyze hybrid text, containing textual and tabular data, remains underexplored. In this research, we specialize in harnessing the potential of LLMs to comprehend critical information from financial reports, which are hybrid long-documents. We propose an Automated Financial Information Extraction (AFIE) framework that enhances LLMs’ ability to comprehend and extract information from financial reports. To evaluate AFIE, we develop a Financial Reports Numerical Extraction (FINE) dataset and conduct an extensive experimental analysis. Our framework is effectively validated on GPT-3.5 and GPT-4, yielding average accuracy increases of 53.94% and 33.77%, respectively, compared to a naive method. These results suggest that the AFIE framework offers accuracy for automated numerical extraction from complex, hybrid documents.

arxiv情報

著者 Chongjian Yue,Xinrun Xu,Xiaojun Ma,Lun Du,Hengyu Liu,Zhiming Ding,Yanbing Jiang,Shi Han,Dongmei Zhang
発行日 2024-03-07 13:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク