PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering

要約

文書の質問応答 (QA) では、ビジュアルリッチな文書 (VRD)、特に研究雑誌の記事のような長いテキストコンテンツが大半を占める文書を理解する際に課題が生じます。
既存の研究は主に、まばらなテキストを含む現実世界の文書に焦点を当てていますが、マルチモーダルコンポーネントを見つけるために複数のページ間の階層的な意味関係を理解することには課題が残っています。
このギャップに対処するために、私たちは、複数のページとマルチモーダルな情報検索を網羅する、研究雑誌の論文向けに調整された PDF-MVQA を提案します。
従来の機械読解 (MRC) タスクとは異なり、私たちのアプローチは、回答や、表や図などの視覚的に豊富な文書エンティティを含む段落全体を取得することを目的としています。
私たちの貢献には、包括的な PDF Document VQA データセットの導入が含まれており、テキスト主体のドキュメントにおける意味論的な階層レイアウト構造の検査が可能になります。
また、テキストの内容とドキュメント レイアウト間の関係を同時に把握し、ページ レベルの理解を複数ページのドキュメント全体に拡張するように設計された新しい VRD-QA フレームワークも紹介します。
この作業を通じて、VRD-QA のテキスト主体のドキュメントによってもたらされる課題を処理する際に、既存のビジョンと言語モデルの機能を強化することを目指しています。

要約(オリジナル)

Document Question Answering (QA) presents a challenge in understanding visually-rich documents (VRD), particularly those dominated by lengthy textual content like research journal articles. Existing studies primarily focus on real-world documents with sparse text, while challenges persist in comprehending the hierarchical semantic relations among multiple pages to locate multimodal components. To address this gap, we propose PDF-MVQA, which is tailored for research journal articles, encompassing multiple pages and multimodal information retrieval. Unlike traditional machine reading comprehension (MRC) tasks, our approach aims to retrieve entire paragraphs containing answers or visually rich document entities like tables and figures. Our contributions include the introduction of a comprehensive PDF Document VQA dataset, allowing the examination of semantically hierarchical layout structures in text-dominant documents. We also present new VRD-QA frameworks designed to grasp textual contents and relations among document layouts simultaneously, extending page-level understanding to the entire multi-page document. Through this work, we aim to enhance the capabilities of existing vision-and-language models in handling challenges posed by text-dominant documents in VRD-QA.

arxiv情報

著者 Yihao Ding,Kaixuan Ren,Jiabin Huang,Siwen Luo,Soyeon Caren Han
発行日 2024-04-19 09:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク