DUBLIN — Document Understanding By Language-Image Network

要約

視覚的な文書の理解は、文書画像内のテキストと視覚的要素の両方の分析を伴う複雑なタスクです。
既存のモデルは多くの場合、手動の特徴量エンジニアリングやドメイン固有のパイプラインに依存しているため、さまざまなドキュメント タイプや言語にわたる一般化機能が制限されています。
この論文では、ドキュメント画像の空間情報と意味情報の両方を活用する、マスクされたドキュメント コンテンツ生成タスク、バウンディング ボックス タスク、およびレンダリングされた質問応答タスクという 3 つの新しい目的を使用して Web ページ上で事前トレーニングされた DUBLIN を提案します。
私たちのモデルは、Web ベースの構造読解、文書の視覚的な質問回答、重要な情報の抽出、図の理解、表の質問回答など、いくつかのベンチマークで競争力のある、または最先端の結果を達成しています。
特に、DUBLIN が WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースのモデルであることを示します。
また、私たちのモデルが、DocVQA および AI2D データセット上で現在のピクセルベースの SoTA モデルよりもそれぞれ 2% および 21% 優れていることも示します。
また、DUBLIN は、多言語機能を示す意味実体認識用の XFUND データセット上でテキストベースの SoTA メソッドと同等のパフォーマンスを達成する史上初のピクセルベースのモデルです。
さらに、この方向の研究を促進するために、テキストベースのデータセットをドキュメント画像としてレンダリングすることにより、新しいベースラインを作成します。

要約(オリジナル)

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on web pages using three novel objectives: Masked Document Content Generation Task, Bounding Box Task, and Rendered Question Answering Task, that leverage both the spatial and semantic information in the document images. Our model achieves competitive or state-of-the-art results on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SoTA models on DocVQA and AI2D datasets by 2% and 21%, respectively. Also, DUBLIN is the first ever pixel-based model which achieves comparable performance to text-based SoTA methods on XFUND dataset for Semantic Entity Recognition showcasing its multilingual capability. Moreover, we create new baselines for text-based datasets by rendering them as document images to promote research in this direction.

arxiv情報

著者 Kriti Aggarwal,Aditi Khandelwal,Kumar Tanmay,Owais Mohammed Khan,Qiang Liu,Monojit Choudhury,Hardik Hansrajbhai Chauhan,Subhojit Som,Vishrav Chaudhary,Saurabh Tiwary
発行日 2023-05-24 07:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, F.2.2 パーマリンク