要約
私たちは、Document AI (DocAI) コミュニティに対し、現在の方法論を再評価し、より実践的なベンチマークを作成するという課題に取り組むよう呼びかけます。
Document Understanding Dataset and Evaluation (DUDE) は、視覚的にリッチなドキュメント (VRD) を理解する際に停止した研究の進歩を修復することを目指しています。
さまざまな起源と日付のマルチ業界、マルチドメイン、マルチページ VRD に基づいた質問、回答、ドキュメント レイアウトの種類に関連する新規性を備えた新しいデータセットを紹介します。
さらに、低リソース設定下で強力な一般化と適応が求められる現実の状況をより正確にシミュレートするマルチタスクおよびマルチドメインの評価セットアップを作成することで、現在の手法の限界を押し広げています。
DUDE は、コミュニティのためのより実用的で長期にわたるベンチマークとして新しい標準を設定することを目指しており、それが現実世界の課題に対処する将来の拡張や貢献につながることを期待しています。
最後に、私たちの研究は、DocAI で言語、画像、レイアウトをモデル化するより効率的な方法を見つけることの重要性を示しています。
要約(オリジナル)
We call on the Document AI (DocAI) community to reevaluate current methodologies and embrace the challenge of creating more practically-oriented benchmarks. Document Understanding Dataset and Evaluation (DUDE) seeks to remediate the halted research progress in understanding visually-rich documents (VRDs). We present a new dataset with novelties related to types of questions, answers, and document layouts based on multi-industry, multi-domain, and multi-page VRDs of various origins, and dates. Moreover, we are pushing the boundaries of current methods by creating multi-task and multi-domain evaluation setups that more accurately simulate real-world situations where powerful generalization and adaptation under low-resource settings are desired. DUDE aims to set a new standard as a more practical, long-standing benchmark for the community, and we hope that it will lead to future extensions and contributions that address real-world challenges. Finally, our work illustrates the importance of finding more efficient ways to model language, images, and layout in DocAI.
arxiv情報
著者 | Jordy Van Landeghem,Rubén Tito,Łukasz Borchmann,Michał Pietruszka,Paweł Józiak,Rafał Powalski,Dawid Jurkiewicz,Mickaël Coustaty,Bertrand Ackaert,Ernest Valveny,Matthew Blaschko,Sien Moens,Tomasz Stanisławek |
発行日 | 2023-09-11 10:36:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google