DUBLIN — Document Understanding By Language-Image Network

要約

視覚的な文書の理解は、文書画像内のテキストと視覚的要素の両方の分析を伴う複雑なタスクです。
既存のモデルは多くの場合、手動の特徴量エンジニアリングやドメイン固有のパイプラインに依存しているため、さまざまなドキュメント タイプや言語にわたる一般化機能が制限されています。
この論文では、文書画像内の空間的および意味論的な情報を活用する 3 つの新しい目的 (マスクされた文書コンテンツ生成タスク、バウンディング ボックス タスク、およびレンダリングされた質問応答タスク) を使用して Web ページ上で事前トレーニングされた DUBLIN を提案します。
Web ベースの構造読解、ドキュメントの視覚的な質問回答、重要な情報の抽出、図の理解、表による質問回答など、いくつかのベンチマークでモデルを評価します。
これらのタスクに関して、私たちのモデルが最先端のモデルよりも優れた結果を達成することを示します。
特に、DUBLIN が WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースのモデルであることを示します。
また、私たちのモデルは、DocVQA および AI2D データセット上で現在のピクセルベースの SOTA モデルよりも大幅に優れており、それぞれ 2% および 21% のパフォーマンス向上であることも示しています。
また、DUBLIN は、XFUND データセット上でテキストベースの SOTA メソッドと同等の意味実体認識を実現する史上初のピクセルベースのモデルであり、その多言語機能を示しています。
さらに、テキストベースのデータセットをドキュメント画像としてレンダリングし、このモデルを適用することで、テキストベースのデータセット用の新しいベースラインを作成します。

要約(オリジナル)

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on webpages using three novel objectives that leverage the spatial and semantic information in the document images: Masked Document Content Generation Task, Bounding Box Task, and Rendered Question Answering Task. We evaluate our model on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. We show that our model achieves competitive or better results than the state-of-the-art models on these tasks. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA and AI2D datasets by significant margins, 2% and 21% increase in performance, respectively. Also, DUBLIN is the first ever pixel-based model which achieves comparable to text-based SOTA methods on XFUND dataset for Semantic Entity Recognition showcasing its multilingual capability. Moreover, we create new baselines for text-based datasets by rendering them as document images and applying this model.

arxiv情報

著者 Kriti Aggarwal,Aditi Khandelwal,Kumar Tanmay,Owais Mohammed Khan,Qiang Liu,Monojit Choudhury,Subhojit Som,Vishrav Chaudhary,Saurabh Tiwary
発行日 2023-05-23 16:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, F.2.2 パーマリンク