PDFVQA: A New Dataset for Real-World VQA on PDF Documents

要約

タイトル: PDF文書における実世界VQAのための新しいデータセット、PDF-VQA

要約:
– PDF-VQAは、PDFドキュメントに対する自然言語の質問に対する文書理解を調査することを目的とした新しいVQA(Visual Question Answering)データセットである。
– PDF-VQAは、文書要素認識、文書レイアウトの構造理解、文脈理解、主要情報の抽出など、さまざまな観点から文書理解を総合的に検討するために作成された。
– PDF-VQAは、単一の文書ページに限定されたドキュメント理解スケールから、複数ページにわたる全文書に質問を投げかける新しいスケールに拡張する。
– 新しいグラフベースのVQAモデルは、異なる文書要素間の空間的および階層的な構造関係を明示的に統合し、文書構造理解を高めるように提案された。
– いくつかのベースラインと異なる質問タイプやタスクでのパフォーマンスが比較される。データセットは、論文受理後に公開される予定である。

要約(オリジナル)

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.

arxiv情報

著者 Yihao Ding,Siwen Luo,Hyunsuk Chung,Soyeon Caren Han
発行日 2023-04-24 01:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク