要約
タイトル: GeoLayoutLM: ビジュアル情報抽出のための幾何学的プレトレーニング
要約:
– ビジュアル情報抽出(VIE)は、ドキュメントインテリジェンスに重要な役割を果たす。
– VIEは一般的に、意味エンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割される。
– 既存のモデルの多くは、幾何学的表現を暗黙的な方法で学習しており、REタスクにおいて幾何学情報が重要であるため不十分であることがわかっている。
– さらに、REの事前学習フェーズと微調整フェーズの目的のギャップがREのパフォーマンスに制限を与える別の要因であることが明らかになっている。
– この問題に対処するために、我々は本稿でVIEのためのマルチモーダルフレームワークであるGeoLayoutLMを提案する。
– GeoLayoutLMは、幾何学的関係を事前学習で明示的にモデル化し、三つの特別に設計されたジオメトリーリレーテッドの学習タスクで幾何学のプレトレーニングを実現する。
– 加えて、幾何学的プレトレーニングタスクでプレトレーニングされ、REのために微調整される新しい関係ヘッドが、機能表現を豊かにし、強化するように綿密に設計されている。
– 標準的なVIEベンチマークでの広範な実験によると、GeoLayoutLMはSERタスクで非常に競争力のあるスコアを達成し、REの先行研究よりも有意に優れた性能を発揮する(FUNSDのREのF1スコアが80.35%から89.45%に向上)。
– コードとモデルはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLMで公開されている。
要約(オリジナル)
Visual information extraction (VIE) plays an important role in Document Intelligence. Generally, it is divided into two tasks: semantic entity recognition (SER) and relation extraction (RE). Recently, pre-trained models for documents have achieved substantial progress in VIE, particularly in SER. However, most of the existing models learn the geometric representation in an implicit way, which has been found insufficient for the RE task since geometric information is especially crucial for RE. Moreover, we reveal another factor that limits the performance of RE lies in the objective gap between the pre-training phase and the fine-tuning phase for RE. To tackle these issues, we propose in this paper a multi-modal framework, named GeoLayoutLM, for VIE. GeoLayoutLM explicitly models the geometric relations in pre-training, which we call geometric pre-training. Geometric pre-training is achieved by three specially designed geometry-related pre-training tasks. Additionally, novel relation heads, which are pre-trained by the geometric pre-training tasks and fine-tuned for RE, are elaborately designed to enrich and enhance the feature representation. According to extensive experiments on standard VIE benchmarks, GeoLayoutLM achieves highly competitive scores in the SER task and significantly outperforms the previous state-of-the-arts for RE (\eg, the F1 score of RE on FUNSD is boosted from 80.35\% to 89.45\%). The code and models are publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM
arxiv情報
著者 | Chuwei Luo,Changxu Cheng,Qi Zheng,Cong Yao |
発行日 | 2023-04-21 06:02:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI