要約
Visually-Rich Document Entity Retrieval (VDER) は、対象のエンティティごとにドキュメント内のテキスト スパンを回復することを目的とした機械学習タスクの一種です。
VDER は、エンタープライズ AI における幅広いアプリケーションのおかげで、近年大きな注目を集めています。
残念ながら、文書画像には個人を特定できる情報 (PII) が含まれることが多く、プライバシーの制約だけでなく、注釈の取得コストのせいで、公開されているデータはほとんどありません。
さらに悪いことに、各データセットは独自のエンティティ セットを定義することが多く、データセット間でエンティティ スペースが重複していないため、ドキュメント間で知識を伝達することが困難になります。
この論文では、VDER モデルのトレーニングに役立つように、大規模でノイズが多くラベル付けが弱いデータを Web から収集する方法を提案します。
このような方法では、多くの VDER 設定におけるトレーニング データの不足を補うために、膨大な量のドキュメント画像データが生成されます。
さらに、DocuNet という名前の収集されたデータセットは、特定のドキュメント タイプやエンティティ セットに依存する必要がないため、すべての VDER タスクに普遍的に適用できます。
DocuNet を活用して、UniFormer という名前の軽量マルチモーダル アーキテクチャを紹介します。これは、追加の視覚関連を必要とせずに、テキスト、レイアウト、画像のトリミングから統一された表現を学習できます。
私たちはさまざまな設定で人気の VDER モデルでメソッドを実験し、この大規模なデータセットを従来のエンティティ検索と少数ショット学習設定の両方で UniFormer に組み込んだ場合の改善を示します。
要約(オリジナル)
Visually-Rich Document Entity Retrieval (VDER) is a type of machine learning task that aims at recovering text spans in the documents for each of the entities in question. VDER has gained significant attention in recent years thanks to its broad applications in enterprise AI. Unfortunately, as document images often contain personally identifiable information (PII), publicly available data have been scarce, not only because of privacy constraints but also the costs of acquiring annotations. To make things worse, each dataset would often define its own sets of entities, and the non-overlapping entity spaces between datasets make it difficult to transfer knowledge between documents. In this paper, we propose a method to collect massive-scale, noisy, and weakly labeled data from the web to benefit the training of VDER models. Such a method will generate a huge amount of document image data to compensate for the lack of training data in many VDER settings. Moreover, the collected dataset named DocuNet would not need to be dependent on specific document types or entity sets, making it universally applicable to all VDER tasks. Empowered by DocuNet, we present a lightweight multimodal architecture named UniFormer, which can learn a unified representation from text, layout, and image crops without needing extra visual pertaining. We experiment with our methods on popular VDER models in various settings and show the improvements when this massive dataset is incorporated with UniFormer on both classic entity retrieval and few-shot learning settings.
arxiv情報
著者 | Lijun Yu,Jin Miao,Xiaoyu Sun,Jiayi Chen,Alexander G. Hauptmann,Hanjun Dai,Wei Wei |
発行日 | 2023-06-15 08:21:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google