Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

要約

視覚的な質問応答(VQA)は、ドキュメント画像から特定の情報を抽出するための柔軟なアプローチとして浮上しています。
ただし、既存の作業は通常、各フィールドを単独で照会し、複数のアイテムで潜在的な依存関係を見落とします。
このペーパーでは、複数のフィールドを共同で抽出するメリットと個別に調査します。
複数の大型ビジョン言語モデルとデータセットの実験を通じて、特にフィールドが強力な数値またはコンテキスト依存関係を共有する場合、フィールドを共同で抽出することが精度を改善することが多いことを示します。
さらに、要求されたアイテムの数でパフォーマンスがどのようにスケーリングするかをさらに分析し、回帰ベースのメトリックを使用してインターフィールド関係を定量化します。
我々の結果は、マルチフィールドプロンプトが、類似の表面形式と関連する数値から生じる混乱を軽減し、ドキュメント情報抽出タスクで堅牢なVQAシステムを設計するための実用的な方法を提供できることを示唆しています。

要約(オリジナル)

Visual question answering (VQA) has emerged as a flexible approach for extracting specific pieces of information from document images. However, existing work typically queries each field in isolation, overlooking potential dependencies across multiple items. This paper investigates the merits of extracting multiple fields jointly versus separately. Through experiments on multiple large vision language models and datasets, we show that jointly extracting fields often improves accuracy, especially when the fields share strong numeric or contextual dependencies. We further analyze how performance scales with the number of requested items and use a regression based metric to quantify inter field relationships. Our results suggest that multi field prompts can mitigate confusion arising from similar surface forms and related numeric values, providing practical methods for designing robust VQA systems in document information extraction tasks.

arxiv情報

著者 Mengsay Loem,Taiju Hosaka
発行日 2025-03-21 05:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク