要約
Visually Rich Document Understanding (VRDU) の分野は、マルチモーダル ドメインでよく研究された多数の NLP タスクを解決することを目的としています。
とりわけ、文書分類 (DC)、キーエンティティ抽出 (KEE)、エンティティリンク、ビジュアル質問応答 (VQA) などの VRDU の特定のタスクに関する研究用に、いくつかのデータセットが存在します。
これらのデータセットは、1 つまたは 2 つの相互に関連するタスク (エンティティの抽出やエンティティのリンクなど) をサポートするように、疎な注釈が付いた請求書や領収書などのドキュメントをカバーします。
残念ながら、ドキュメントやタスクの 1 つの特定だけに焦点を当てることは、さまざまなスタイルや要件が予想される現場でドキュメントを処理する必要があることがよくある方法を表していません。
このペーパーでは、BuDDIE (情報抽出用ビジネス ドキュメント データセット) を紹介します。これは、DC、KEE、および VQA の豊富で緻密な注釈を含む、1,665 件の実世界のビジネス ドキュメントからなる初のマルチタスク データセットです。
私たちのデータセットは、米国州政府の Web サイトから公開されている事業体の文書で構成されています。
文書は構造化されており、州や種類 (フォーム、証明書、報告書など) によってスタイルやレイアウトが異なります。
BuDDIE のデータの多様性と品質のメトリクス、および各タスクの一連のベースラインを提供します。
私たちのベースラインは、VRDU に対する従来のテキスト、マルチモーダル、大規模言語モデルのアプローチをカバーしています。
要約(オリジナル)
The field of visually rich document understanding (VRDU) aims to solve a multitude of well-researched NLP tasks in a multi-modal domain. Several datasets exist for research on specific tasks of VRDU such as document classification (DC), key entity extraction (KEE), entity linking, visual question answering (VQA), inter alia. These datasets cover documents like invoices and receipts with sparse annotations such that they support one or two co-related tasks (e.g., entity extraction and entity linking). Unfortunately, only focusing on a single specific of documents or task is not representative of how documents often need to be processed in the wild – where variety in style and requirements is expected. In this paper, we introduce BuDDIE (Business Document Dataset for Information Extraction), the first multi-task dataset of 1,665 real-world business documents that contains rich and dense annotations for DC, KEE, and VQA. Our dataset consists of publicly available business entity documents from US state government websites. The documents are structured and vary in their style and layout across states and types (e.g., forms, certificates, reports, etc.). We provide data variety and quality metrics for BuDDIE as well as a series of baselines for each task. Our baselines cover traditional textual, multi-modal, and large language model approaches to VRDU.
arxiv情報
著者 | Ran Zmigrod,Dongsheng Wang,Mathieu Sibue,Yulong Pei,Petr Babkin,Ivan Brugere,Xiaomo Liu,Nacho Navarro,Antony Papadimitriou,William Watson,Zhiqiang Ma,Armineh Nourbakhsh,Sameena Shah |
発行日 | 2024-04-05 10:26:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google