DocFormerv2: Local Features for Document Understanding

要約

我々は、視覚的文書理解(VDU)のためのマルチモーダル変換器であるDocFormerv2を提案する。VDUの領域は、例えば、フォームからの情報抽出、ドキュメントのVQA、その他のタスクなど、(単なるOCR予測を超えた)ドキュメントを理解することを含む。VDUは、複数のモダリティ(視覚、言語、空間)を理解し、予測を行うモデルが必要であるため、困難である。DocFormerv2と呼ばれる我々のアプローチは、視覚、言語、空間的特徴を入力とするエンコーダ・デコーダ変換器である。DocFormerv2は、エンコーダーに2つの新規文書タスク、自動回帰デコーダーに1つのタスクというように、非対称に採用された教師なしタスクで事前に訓練されている。教師なしタスクは、事前訓練によって複数のモダリティ間の局所的な特徴の一致が促されるように慎重に設計されています。DocFormerv2を9つのデータセットで評価したところ、TabFact(4.3%)、InfoVQA(1.4%)、FUNSD(1%)といった強力なベースラインを上回る最先端の性能を示しました。さらに、シーンテキストを含む3つのVQAタスクにおいて、Doc-Formerv2は従来の同サイズのモデルを上回り、いくつかのタスクでは(GIT2、PaLi、Flamingoなどの)非常に大きなモデルよりも優れていることが示された。また、DocFormerv2は、事前学習により、複数のモダリティを理解することができることがわかった。

要約(オリジナル)

We propose DocFormerv2, a multi-modal transformer for Visual Document Understanding (VDU). The VDU domain entails understanding documents (beyond mere OCR predictions) e.g., extracting information from a form, VQA for documents and other tasks. VDU is challenging as it needs a model to make sense of multiple modalities (visual, language and spatial) to make a prediction. Our approach, termed DocFormerv2 is an encoder-decoder transformer which takes as input – vision, language and spatial features. DocFormerv2 is pre-trained with unsupervised tasks employed asymmetrically i.e., two novel document tasks on encoder and one on the auto-regressive decoder. The unsupervised tasks have been carefully designed to ensure that the pre-training encourages local-feature alignment between multiple modalities. DocFormerv2 when evaluated on nine datasets shows state-of-the-art performance over strong baselines e.g. TabFact (4.3%), InfoVQA (1.4%), FUNSD (1%). Furthermore, to show generalization capabilities, on three VQA tasks involving scene-text, Doc- Formerv2 outperforms previous comparably-sized models and even does better than much larger models (such as GIT2, PaLi and Flamingo) on some tasks. Extensive ablations show that due to its pre-training, DocFormerv2 understands multiple modalities better than prior-art in VDU.

arxiv情報

著者 Srikar Appalaraju,Peng Tang,Qi Dong,Nishant Sankaran,Yichu Zhou,R. Manmatha
発行日 2023-06-02 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク