要約
文書分析と理解モデルでは、多くの場合、大量の注釈付きデータをトレーニングする必要があります。
ただし、ドキュメント関連のさまざまなタスクは単なるテキストの転写を超えており、さまざまなドキュメント要素を識別するためにテキストのコンテンツと正確な境界ボックスの注釈の両方が必要です。
このようなデータの収集は、プライバシー上の懸念によりさらに複雑さが増す請求書の状況では特に困難になります。
このペーパーでは、文書分析と理解の分野の研究者にとって極めて重要なリソースである FATURA を紹介します。
FATURA は、マルチレイアウトの注釈付き請求書ドキュメント画像を特徴とする非常に多様なデータセットです。
これは、50 ドルの異なるレイアウトを備えた 10,000 ドルの請求書で構成されており、現在知られている請求書文書のオープンにアクセスできる最大の画像データセットを表しています。
また、さまざまなドキュメント分析とタスク理解のための包括的なベンチマークを提供し、さまざまなトレーニングと評価シナリオの下で実験を実施します。
データセットは https://zenodo.org/record/8261508 から自由にアクセスでき、研究者が文書の分析と理解の分野を前進できるようになります。
要約(オリジナル)
Document analysis and understanding models often require extensive annotated data to be trained. However, various document-related tasks extend beyond mere text transcription, requiring both textual content and precise bounding-box annotations to identify different document elements. Collecting such data becomes particularly challenging, especially in the context of invoices, where privacy concerns add an additional layer of complexity. In this paper, we introduce FATURA, a pivotal resource for researchers in the field of document analysis and understanding. FATURA is a highly diverse dataset featuring multi-layout, annotated invoice document images. Comprising $10,000$ invoices with $50$ distinct layouts, it represents the largest openly accessible image dataset of invoice documents known to date. We also provide comprehensive benchmarks for various document analysis and understanding tasks and conduct experiments under diverse training and evaluation scenarios. The dataset is freely accessible at https://zenodo.org/record/8261508, empowering researchers to advance the field of document analysis and understanding.
arxiv情報
著者 | Mahmoud Limam,Marwa Dhiaf,Yousri Kessentini |
発行日 | 2023-11-20 15:51:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google