DocumentNet: Bridging the Data Gap in Document Pre-Training

要約

文書理解タスク、特にビジュアルリッチな文書エンティティ検索 (VDER) は、エンタープライズ AI における広範なアプリケーションのおかげで、近年大きな注目を集めています。
ただし、厳しいプライバシー制約と高いアノテーション コストのため、これらのタスクに使用できる公開データは不足しています。
さらに悪いことに、異なるデータセットからのエンティティ空間が重複していないため、ドキュメント タイプ間の知識の伝達が妨げられます。
この論文では、VDER モデルのトレーニングに役立つように、Web から大規模で弱いラベルが付けられたデータを収集する方法を提案します。
DocumentNet という名前の収集されたデータセットは、特定のドキュメント タイプやエンティティ セットに依存しないため、すべての VDER タスクに普遍的に適用できます。
現在の DocumentNet は、4 レベルのオントロジーで編成された約 400 種類の文書にまたがる 3,000 万の文書で構成されています。
広く採用されている一連の VDER タスクの実験では、従来の学習設定と少数ショット学習設定の両方の事前トレーニングに DocumentNet を組み込むと、大幅な改善が見られました。
最近の大規模言語モデル (LLM) の出現により、DocumentNet は VDER のマルチモーダル機能を拡張する大規模なデータ ソースを提供します。

要約(オリジナル)

Document understanding tasks, in particular, Visually-rich Document Entity Retrieval (VDER), have gained significant attention in recent years thanks to their broad applications in enterprise AI. However, publicly available data have been scarce for these tasks due to strict privacy constraints and high annotation costs. To make things worse, the non-overlapping entity spaces from different datasets hinder the knowledge transfer between document types. In this paper, we propose a method to collect massive-scale and weakly labeled data from the web to benefit the training of VDER models. The collected dataset, named DocumentNet, does not depend on specific document types or entity sets, making it universally applicable to all VDER tasks. The current DocumentNet consists of 30M documents spanning nearly 400 document types organized in a four-level ontology. Experiments on a set of broadly adopted VDER tasks show significant improvements when DocumentNet is incorporated into the pre-training for both classic and few-shot learning settings. With the recent emergence of large language models (LLMs), DocumentNet provides a large data source to extend their multi-modal capabilities for VDER.

arxiv情報

著者 Lijun Yu,Jin Miao,Xiaoyu Sun,Jiayi Chen,Alexander G. Hauptmann,Hanjun Dai,Wei Wei
発行日 2023-10-26 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク