FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and Understanding


このペーパーでは、文書分析と理解の分野の研究者にとって極めて重要なリソースである FATURA を紹介します。
FATURA は、マルチレイアウトの注釈付き請求書ドキュメント画像を特徴とする非常に多様なデータセットです。
これは、50 ドルの異なるレイアウトを備えた 10,000 ドルの請求書で構成されており、現在知られている請求書文書のオープンにアクセスできる最大の画像データセットを表しています。
データセットは https://zenodo.org/record/8261508 から自由にアクセスでき、研究者が文書の分析と理解の分野を前進できるようになります。


Document analysis and understanding models often require extensive annotated data to be trained. However, various document-related tasks extend beyond mere text transcription, requiring both textual content and precise bounding-box annotations to identify different document elements. Collecting such data becomes particularly challenging, especially in the context of invoices, where privacy concerns add an additional layer of complexity. In this paper, we introduce FATURA, a pivotal resource for researchers in the field of document analysis and understanding. FATURA is a highly diverse dataset featuring multi-layout, annotated invoice document images. Comprising $10,000$ invoices with $50$ distinct layouts, it represents the largest openly accessible image dataset of invoice documents known to date. We also provide comprehensive benchmarks for various document analysis and understanding tasks and conduct experiments under diverse training and evaluation scenarios. The dataset is freely accessible at https://zenodo.org/record/8261508, empowering researchers to advance the field of document analysis and understanding.


著者 Mahmoud Limam,Marwa Dhiaf,Yousri Kessentini
発行日 2023-11-20 15:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク