PDFVQA: A New Dataset for Real-World VQA on PDF Documents

要約

タイトル:PDFドキュメントにおける現実世界のVQAのための新しいデータセット

要約:
– Document-based Visual Question Answeringは、自然言語の質問条件下でドキュメントイメージのドキュメント理解を調べるものです。
– 私たちは、文書要素の認識、ドキュメントレイアウトの構造的理解、コンテキスト理解、および主要情報の抽出など、さまざまな側面から文書理解を包括的に調べるための新しいドキュメントベースのVQAデータセットであるPDF-VQAを提案しました。
– 私たちのPDF-VQAデータセットは、単一のドキュメントページに限定された文書理解の現在のスケールを、複数ページのフルドキュメントにわたる質問を要求する新しいスケールに拡張しています。
– さらに、私たちは、異なるドキュメント要素間の空間的および階層的な構造的関係を明示的に統合して文書の構造的理解を向上させる新しいグラフベースのVQAモデルを提案しています。
– パフォーマンスは、異なる質問タイプやタスクに対していくつかのベースラインと比較されます。
– (注:全データセットは、論文の承認後にリリースされます。)

要約(オリジナル)

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.

arxiv情報

著者 Yihao Ding,Siwen Luo,Hyunsuk Chung,Soyeon Caren Han
発行日 2023-04-19 14:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク