UniVIE: A Unified Label Space Approach to Visual Information Extraction from Form-like Documents

要約

フォーム状のドキュメントから視覚情報抽出 (VIE) を行う既存の方法は、通常、プロセスをキー情報の抽出、キーと値のペアの抽出、選択グループの抽出などの個別のサブタスクに分割します。
ただし、これらのアプローチでは、階層的なキーと値のペアや階層的な選択グループなど、フォーム ドキュメントの階層構造が見落とされることがよくあります。
これらの制限に対処するために、VIE を関係予測問題として再構成し、さまざまなタスクのラベルを単一のラベル空間に統合するという新しい視点を提示します。
この統一されたアプローチにより、さまざまな関係タイプの定義が可能になり、フォームのような文書内の階層関係に効果的に取り組むことができます。
この観点に沿って、VIE の問題に包括的に対処する統合モデルである UniVIE を紹介します。
UniVIE は、粗いものから細かいものへの戦略を使用して機能します。
最初にツリー提案ネットワークを通じてツリー提案を生成し、その後関係デコーダ モジュールによって階層ツリーに洗練されます。
UniVIE の関係予測機能を強化するために、ツリー アテンション マスクとツリー レベルの埋め込みという 2 つの新しいツリー制約を関係デコーダーに組み込みました。
当社の社内データセット HierForms と公的に利用可能なデータセット SIBR の両方に対する広範な実験評価により、当社の手法が最先端の結果を達成することが実証され、VIE 分野の進歩における当社の統一アプローチの有効性と可能性が強調されています。

要約(オリジナル)

Existing methods for Visual Information Extraction (VIE) from form-like documents typically fragment the process into separate subtasks, such as key information extraction, key-value pair extraction, and choice group extraction. However, these approaches often overlook the hierarchical structure of form documents, including hierarchical key-value pairs and hierarchical choice groups. To address these limitations, we present a new perspective, reframing VIE as a relation prediction problem and unifying labels of different tasks into a single label space. This unified approach allows for the definition of various relation types and effectively tackles hierarchical relationships in form-like documents. In line with this perspective, we present UniVIE, a unified model that addresses the VIE problem comprehensively. UniVIE functions using a coarse-to-fine strategy. It initially generates tree proposals through a tree proposal network, which are subsequently refined into hierarchical trees by a relation decoder module. To enhance the relation prediction capabilities of UniVIE, we incorporate two novel tree constraints into the relation decoder: a tree attention mask and a tree level embedding. Extensive experimental evaluations on both our in-house dataset HierForms and a publicly available dataset SIBR, substantiate that our method achieves state-of-the-art results, underscoring the effectiveness and potential of our unified approach in advancing the field of VIE.

arxiv情報

著者 Kai Hu,Jiawei Wang,Weihong Lin,Zhuoyao Zhong,Lei Sun,Qiang Huo
発行日 2024-01-17 14:02:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク