PDF-VQA: A New Dataset for Real-World VQA on PDF Documents

要約

タイトル:PDFドキュメントのリアルワールドVQA用の新しいデータセットPDF-VQA

要約:

– ドキュメントベースのVisual Question Answering(VQA)は、自然言語の質問に基づくドキュメント画像のドキュメント理解を調査します。
– 私たちは、ドキュメント要素認識、ドキュメントのレイアウト構造理解、文脈理解、および主要な情報の抽出を含む、さまざまな側面からドキュメント理解を包括的に調査するための新しいドキュメントベースのVQAデータセットであるPDF-VQAを提案しました。
– 私たちのPDF-VQAデータセットは、単一のドキュメントページに限定されたドキュメント理解の現在のスケールを、複数ページの完全なドキュメント上で質問をする新しいスケールに拡大しています。
– 私たちはまた、異なるドキュメント要素間の空間的および階層構造的関係を明示的に統合する新しいグラフベースのVQAモデルを提案し、ドキュメントの構造的理解を強化します。
– パフォーマンスは、異なる質問タイプおよびタスクにわたるいくつかのベースラインと比較されます。
– (論文受理後、フルデータセットがリリースされます)

要約(オリジナル)

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.

arxiv情報

著者 Yihao Ding,Siwen Luo,Hyunsuk Chung,Soyeon Caren Han
発行日 2023-04-14 02:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク