PDF-VQA: A New Dataset for Real-World VQA on PDF Documents

要約

【タイトル】PDFドキュメントにおける現実的なVQAのための新しいデータセットPDF-VQA

【要約】
– 文書ベースのビジュアル質問応答は、自然言語の質問条件下で文書画像の文書理解を調べたものです。
– 文書要素の認識、文書レイアウトの構造理解、文脈理解および主要情報の抽出など、様々な側面から文書理解を包括的に調べるための新しい文書ベースのVQAデータセットであるPDF-VQAを提案しました。
– 当社のPDF-VQAデータセットは、単一の文書ページに限定される文書理解の現在の規模を、多数ページから構成されるフルドキュメント上での質問にまで拡大します。
– 異なるドキュメント要素間の空間的および階層的構造的関係を明示的に統合する新しいグラフベースのVQAモデルを提案し、文書構造の理解を向上させることができます。
– 複数のベースラインを使用して、さまざまな質問タイプとタスクにおける性能を比較しました。
– 【注記】論文受理後、完全なデータセットが公開されます。

要約(オリジナル)

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.

arxiv情報

著者 Yihao Ding,Siwen Luo,Hyunsuk Chung,Soyeon Caren Han
発行日 2023-04-13 12:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク