Visually Guided Generative Text-Layout Pre-training for Document Intelligence

要約

以前の研究では、事前トレーニング技術が視覚的文書理解 (VDU) のパフォーマンスを向上させることができることを示しています。これには通常、モデルが文書のテキストとレイアウト (テキストや表のセルの位置など) の両方を認識して推論する能力を獲得する必要があります。
この目的を達成するために、ViTLP と呼ばれる、視覚的にガイドされた生成テキスト レイアウトの事前トレーニングを提案します。
ドキュメント画像が与えられると、モデルは階層言語とレイアウト モデリングの目的を最適化し、インターリーブされたテキストとレイアウト シーケンスを生成します。
さらに、Transformers による長いドキュメントの処理の制限に対処するために、簡単で効果的なマルチセグメント生成事前トレーニング スキームを導入し、ViTLP があらゆる長さのワード集約型ドキュメントを処理できるようにします。
ViTLP は、ドキュメント画像のテキストをローカライズして認識するネイティブ OCR モデルとして機能できます。
さらに、ViTLP はさまざまなダウンストリーム VDU タスクに効果的に適用できます。
広範な実験により、情報抽出、文書分類、文書質問応答などのベンチマーク VDU タスクにおいて、ViTLP が既存のベースラインを上回るパフォーマンスを達成することが示されています。

要約(オリジナル)

Prior study shows that pre-training techniques can boost the performance of visual document understanding (VDU), which typically requires models to gain abilities to perceive and reason both document texts and layouts (e.g., locations of texts and table-cells). To this end, we propose visually guided generative text-layout pre-training, named ViTLP. Given a document image, the model optimizes hierarchical language and layout modeling objectives to generate the interleaved text and layout sequence. In addition, to address the limitation of processing long documents by Transformers, we introduce a straightforward yet effective multi-segment generative pre-training scheme, facilitating ViTLP to process word-intensive documents of any length. ViTLP can function as a native OCR model to localize and recognize texts of document images. Besides, ViTLP can be effectively applied to various downstream VDU tasks. Extensive experiments show that ViTLP achieves competitive performance over existing baselines on benchmark VDU tasks, including information extraction, document classification, and document question answering.

arxiv情報

著者 Zhiming Mao,Haoli Bai,Lu Hou,Jiansheng Wei,Xin Jiang,Qun Liu,Kam-Fai Wong
発行日 2024-03-25 08:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク