Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

要約

ビジネス文書情報抽出 (BDIE) は、非構造化情報の塊 (生のテキスト、スキャンされた文書など) を、下流システムが解析して使用できる構造化形式に変換する問題です。
これには、Key-Information Extraction (KIE) と Line Items Recognition (LIR) という 2 つの主なタスクがあります。
このペーパーでは、BDIE はツール使用問題としてモデル化するのが最適であると主張します。ここで、ツールは下流システムです。
次に、BDIE ベンチマークの KIE タスクと LIR タスクの両方で最先端 (SOTA) の結果を達成する、BDIE の新しい一般的なフレームワークである検索拡張構造生成 (RASG) を紹介します。
この論文の貢献は 3 つあります。 (1) アブレーション ベンチマークを使用して、RASG を使用した大規模言語モデル (LLM) が、BDIE ベンチマークで RASG を使用しない現在の SOTA 大規模マルチモーダル モデル (LMM) とすでに競合するか、それを上回っていることを示します。
(2) 私たちは、ANLS*、DocILE、GriTS などの既存のメトリクスと比較して、実際の BDIE ユースケースにより沿った、Line Items Recognition の新しいメトリクスクラスである General Line Items Recognition Metric (GLIRM) を提案します。
(3) ビジョンエンコーダを必要とせずに、予測されたラインアイテムとテーブルの境界ボックスを逆計算するためのヒューリスティックアルゴリズムを提供します。
最後に、LMM はパフォーマンス上のわずかな利点しか提供しない場合もありますが、実際のアプリケーションと BDIE の制約を考慮すると、LLM + RASG の方が優れている場合が多いと主張します。

要約(オリジナル)

Business Document Information Extraction (BDIE) is the problem of transforming a blob of unstructured information (raw text, scanned documents, etc.) into a structured format that downstream systems can parse and use. It has two main tasks: Key-Information Extraction (KIE) and Line Items Recognition (LIR). In this paper, we argue that BDIE is best modeled as a Tool Use problem, where the tools are these downstream systems. We then present Retrieval Augmented Structured Generation (RASG), a novel general framework for BDIE that achieves state of the art (SOTA) results on both KIE and LIR tasks on BDIE benchmarks. The contributions of this paper are threefold: (1) We show, with ablation benchmarks, that Large Language Models (LLMs) with RASG are already competitive with or surpasses current SOTA Large Multimodal Models (LMMs) without RASG on BDIE benchmarks. (2) We propose a new metric class for Line Items Recognition, General Line Items Recognition Metric (GLIRM), that is more aligned with practical BDIE use cases compared to existing metrics, such as ANLS*, DocILE, and GriTS. (3) We provide a heuristic algorithm for backcalculating bounding boxes of predicted line items and tables without the need for vision encoders. Finally, we claim that, while LMMs might sometimes offer marginal performance benefits, LLMs + RASG is oftentimes superior given real-world applications and constraints of BDIE.

arxiv情報

著者 Franz Louis Cesista,Rui Aguiar,Jason Kim,Paolo Acilo
発行日 2024-05-30 16:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク