XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser


Document AI の分野では、半構造化画像形式の解析は重要な鍵情報抽出 (KIE) タスクです。
事前トレーニングされたマルチモーダル モデルの出現により、Document AI フレームワークは、PDF、Word、画像などのさまざまな形式のフォーム ドキュメントから重要な情報を抽出できるようになります。
それにもかかわらず、フォーム解析には、多言語解析における標準以下の機能や、リッチ テキストやリッチ ビジュアルにおける産業上のコンテキストにおける再現率の低下など、顕著な課題が依然として残されています。
この研究では、包括的な Transformer に基づいた、シンプルだが効果的な \textbf{M}ultimodal および \textbf{M}ultimodal 半構造化 \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}) を導入します。
ベースの事前トレーニング済み言語モデルを使用し、意味論的エンティティ認識 (SER) と関係抽出 (RE) を統一フレームワークに革新的に融合します。
Bi-LSTM と組み合わせると、多言語解析のパフォーマンスが大幅に向上します。
さらに、さまざまな産業コンテキストにおけるフォームの解析ニーズに特に対応する、先駆的な教師あり微調整 (SFT) 産業データセットである InDFormSFT を開発しています。
XFormParser は、確立されたベンチマークでの厳格なテストを通じて、その比類のない有効性と堅牢性を実証しました。
既存の最先端 (SOTA) モデルと比較して、XFormParser は言語固有の設定における RE タスクで最大 1.79\% の F1 スコア向上を達成しています。
コード、データセット、および事前トレーニングされたモデルは、https://github.com/zhbuaa0/xformparser で公開されています。


In the domain of Document AI, parsing semi-structured image form is a crucial Key Information Extraction (KIE) task. The advent of pre-trained multimodal models significantly empowers Document AI frameworks to extract key information from form documents in different formats such as PDF, Word, and images. Nonetheless, form parsing is still encumbered by notable challenges like subpar capabilities in multilingual parsing and diminished recall in industrial contexts in rich text and rich visuals. In this work, we introduce a simple but effective \textbf{M}ultimodal and \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}), which anchored on a comprehensive Transformer-based pre-trained language model and innovatively amalgamates semantic entity recognition (SER) and relation extraction (RE) into a unified framework. Combined with Bi-LSTM, the performance of multilingual parsing is significantly improved. Furthermore, we develop InDFormSFT, a pioneering supervised fine-tuning (SFT) industrial dataset that specifically addresses the parsing needs of forms in various industrial contexts. XFormParser has demonstrated its unparalleled effectiveness and robustness through rigorous testing on established benchmarks. Compared to existing state-of-the-art (SOTA) models, XFormParser notably achieves up to 1.79\% F1 score improvement on RE tasks in language-specific settings. It also exhibits exceptional cross-task performance improvements in multilingual and zero-shot settings. The codes, datasets, and pre-trained models are publicly available at https://github.com/zhbuaa0/xformparser.


著者 Xianfu Cheng,Hang Zhang,Jian Yang,Xiang Li,Weixiao Zhou,Fei Liu,Kui Wu,Xiangyuan Guan,Tao Sun,Xianjie Wu,Tongliang Li,Zhoujun Li
発行日 2024-12-18 16:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク