DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights

要約

Visually-Rich Document (VRD) は、チャート、表、参考資料などの要素を含み、さまざまな分野にわたって複雑な情報を伝えます。
ただし、これらの豊富なドキュメントから情報を抽出することは、特に一貫性のない形式やドメイン固有の要件を考慮すると、多大な労力を要します。
VRD を理解するための事前トレーニング済みモデルは進歩していますが、注釈付きの大規模なデータセットに依存しているため、スケーラビリティが制限されています。
このペーパーでは、ドメイン適応のために機械生成された合成データを利用する、ドメイン適応型ビジュアルリッチ文書理解 (DAViD) フレームワークを紹介します。
DAViD は、きめの細かい文書表現学習と粗粒度の文書表現学習を統合し、合成注釈を採用してコストのかかる手動ラベル付けの必要性を削減します。
事前トレーニングされたモデルと合成データを活用することで、DAViD は最小限の注釈付きデータセットで競争力のあるパフォーマンスを実現します。
広範な実験により DAViD の有効性が検証され、ドメイン固有の VRDU タスクに効率的に適応する能力が実証されました。

要約(オリジナル)

Visually-Rich Documents (VRDs), encompassing elements like charts, tables, and references, convey complex information across various fields. However, extracting information from these rich documents is labor-intensive, especially given their inconsistent formats and domain-specific requirements. While pretrained models for VRD Understanding have progressed, their reliance on large, annotated datasets limits scalability. This paper introduces the Domain Adaptive Visually-rich Document Understanding (DAViD) framework, which utilises machine-generated synthetic data for domain adaptation. DAViD integrates fine-grained and coarse-grained document representation learning and employs synthetic annotations to reduce the need for costly manual labelling. By leveraging pretrained models and synthetic data, DAViD achieves competitive performance with minimal annotated datasets. Extensive experiments validate DAViD’s effectiveness, demonstrating its ability to efficiently adapt to domain-specific VRDU tasks.

arxiv情報

著者 Yihao Ding,Soyeon Caren Han,Zechuan Li,Hyunsuk Chung
発行日 2024-10-02 14:47:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク