要約
ドキュメント AI の分野では、半構造化フォームの解析が重要な役割を果たします。
このタスクでは、キー情報抽出 (KIE) の技術を活用し、プレーン テキストから画像や構造レイアウトで構成される複雑なモーダル データに至るまでの入力を処理します。
事前トレーニングされたマルチモーダル モデルの出現により、PDF や画像などのさまざまな形式のフォーム ドキュメントから重要な情報が抽出されるようになりました。
それにもかかわらず、フォーム解析の取り組みは、多言語解析の能力が標準以下であることや、テキストやビジュアルが豊富なコンテキストでの再現力の低下など、顕著な課題によって依然として妨げられています。
この研究では、シンプルだが効果的な \textbf{M}ultimodal および \textbf{M}ultimual の半構造化された \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}) を導入します。
事前トレーニングされた言語モデルを使用し、意味論的エンティティ認識 (SER) と関係抽出 (RE) を統合フレームワークに革新的に融合します。これは、ソフト ラベルを使用する新しい段階的ウォームアップ トレーニング アプローチによって強化され、推論のオーバーヘッドを増幅させることなくフォーム解析の精度を大幅に向上させます。
さらに、さまざまな産業上の状況における多言語フォームの解析要件に特に対応する、InDFormBench という画期的なベンチマーク データセットを開発しました。
確立された多言語ベンチマークと InDFormBench での厳密なテストを通じて、XFormParser はその比類のない有効性を実証し、特に言語固有のセットアップ内の RE タスクにおいて、F1 スコアを最大 1.79 向上させることで最先端 (SOTA) モデルを上回りました。
%。
私たちのフレームワークは、既存の SOTA ベンチマークと比較した場合、多言語およびゼロショット コンテキストの両方でタスク全体で例外的に向上したパフォーマンスを示します。
コードは https://github.com/zhbuaa0/layoutlmft で公開されています。
要約(オリジナル)
In the domain of document AI, semi-structured form parsing plays a crucial role. This task leverages techniques from key information extraction (KIE), dealing with inputs that range from plain text to intricate modal data comprising images and structural layouts. The advent of pre-trained multimodal models has driven the extraction of key information from form documents in different formats such as PDFs and images. Nonetheless, the endeavor of form parsing is still encumbered by notable challenges like subpar capabilities in multi-lingual parsing and diminished recall in contexts rich in text and visuals. In this work, we introduce a simple but effective \textbf{M}ultimodal and \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}), which is anchored on a comprehensive pre-trained language model and innovatively amalgamates semantic entity recognition (SER) and relation extraction (RE) into a unified framework, enhanced by a novel staged warm-up training approach that employs soft labels to significantly refine form parsing accuracy without amplifying inference overhead. Furthermore, we have developed a groundbreaking benchmark dataset, named InDFormBench, catering specifically to the parsing requirements of multilingual forms in various industrial contexts. Through rigorous testing on established multilingual benchmarks and InDFormBench, XFormParser has demonstrated its unparalleled efficacy, notably surpassing the state-of-the-art (SOTA) models in RE tasks within language-specific setups by achieving an F1 score improvement of up to 1.79\%. Our framework exhibits exceptionally improved performance across tasks in both multi-language and zero-shot contexts when compared to existing SOTA benchmarks. The code is publicly available at https://github.com/zhbuaa0/layoutlmft.
arxiv情報
著者 | Xianfu Cheng,Hang Zhang,Jian Yang,Xiang Li,Weixiao Zhou,Kui Wu,Fei Liu,Wei Zhang,Tao Sun,Tongliang Li,Zhoujun Li |
発行日 | 2024-05-27 16:37:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google