Cross-Modal Entity Matching for Visually Rich Documents

要約

視覚的にリッチなドキュメント (VRD) は、視覚的な合図を利用してセマンティクスを強化する物理的/デジタル ドキュメントです。
これらのドキュメントに含まれる情報は、多くの場合不完全です。
VRD での自動クエリを可能にする既存の作業では、この側面が考慮されていません。
したがって、サポートされるクエリのセットは限られています。
このホワイト ペーパーでは、Juno について説明します。Juno は、リレーショナル データベースから一連のタプルを識別して、不完全な VRD を補足情報で補強するマルチモーダル フレームワークです。
これに対する私たちの主な貢献は、ドキュメント タイプや基礎となるデータベース スキーマに関する事前知識がなくても、このクロスモーダル エンティティ マッチング タスクを実行する、双方向の注意を備えたエンドツーエンドのトレーニング可能なニューラル ネットワークです。
2 つの異種データセットでの徹底的な実験では、Juno が F1 スコアで最先端のベースラインを 6% 以上上回っている一方で、ワークフローにおける人間の労力を 80% 以上削減していることが示されています。
私たちの知る限りでは、VRD の不完全性を調査し、シームレスな方法でそれに対処するための堅牢なフレームワークを提案した最初の研究です。

要約(オリジナル)

Visually rich documents (VRD) are physical/digital documents that utilize visual cues to augment their semantics. The information contained in these documents are often incomplete. Existing works that enable automated querying on VRDs do not take this aspect into account. Consequently, they support a limited set of queries. In this paper, we describe Juno — a multimodal framework that identifies a set of tuples from a relational database to augment an incomplete VRD with supplementary information. Our main contribution in this is an end-to-end-trainable neural network with bi-directional attention that executes this cross-modal entity matching task without any prior knowledge about the document type or the underlying database-schema. Exhaustive experiments on two heteroegeneous datasets show that Juno outperforms state-of-the-art baselines by more than 6% in F1-score, while reducing the amount of human-effort in its workflow by more than 80%. To the best of our knowledge, ours is the first work that investigates the incompleteness of VRDs and proposes a robust framework to address it in a seamless way.

arxiv情報

著者 Ritesh Sarkhel,Arnab Nandi
発行日 2023-03-01 18:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.IR, cs.LG パーマリンク