Cross-Modal Entity Matching for Visually Rich Documents

要約

視覚的に豊富なドキュメント (リーフレット、バナー、雑誌記事など) は、視覚的な手がかりを利用してセマンティクスを強化する物理的またはデジタルのドキュメントです。
これらの文書に含まれる情報はその場限りであり、多くの場合不完全です。
これらのドキュメントに対する構造化されたクエリを可能にする既存の研究では、これが考慮されていません。
そのため、これらのドキュメントのクエリから取得した情報を文脈化して、そこから実用的な洞察を収集することが困難になります。
私たちは、この制限に対処するクロスモーダル エンティティ マッチング フレームワークである Juno を提案します。
文書内のテキスト範囲を外部データベースからの意味的に類似したタプルと照合することにより、異種文書を補足情報で強化します。
これに対する私たちの主な貢献は、従来のキーワードベースのマッチングを超え、文書タイプや基礎となるスキーマに関する事前知識がなくても、マルチモーダルエンコード空間上でテキストスパンとリレーショナルタプルを整列させることによって、一致するタプルを見つける注意を払ったディープニューラルネットワークです。
複数の実世界のデータセットに対する徹底的な実験により、Juno が多様なレイアウトと形式を持つ異種ドキュメントに一般化できることがわかりました。
最先端のベースラインを 6 F1 ポイント以上上回っており、人間によるラベルが付けられたサンプルが最大 60% 削減されています。
私たちの実験は、Juno が計算的に堅牢なフレームワークであることをさらに示しています。
一度トレーニングするだけで、その後はダウンストリームのパフォーマンスを犠牲にすることなく、リソースに制約のある複数の環境に動的に適応させることができます。
これにより、さまざまなエッジデバイスでのオンデバイス展開に適しています。
私たちの知る限り、私たちの研究は、視覚的に豊富な文書の情報の不完全性を調査し、エンドツーエンドの方法でそれに対処するための一般化可能でパフォーマンスが高く、計算的に堅牢なフレームワークを提案した最初の研究です。

要約(オリジナル)

Visually rich documents (e.g. leaflets, banners, magazine articles) are physical or digital documents that utilize visual cues to augment their semantics. Information contained in these documents are ad-hoc and often incomplete. Existing works that enable structured querying on these documents do not take this into account. This makes it difficult to contextualize the information retrieved from querying these documents and gather actionable insights from them. We propose Juno — a cross-modal entity matching framework to address this limitation. It augments heterogeneous documents with supplementary information by matching a text span in the document with semantically similar tuples from an external database. Our main contribution in this is a deep neural network with attention that goes beyond traditional keyword-based matching and finds matching tuples by aligning text spans and relational tuples on a multimodal encoding space without any prior knowledge about the document type or the underlying schema. Exhaustive experiments on multiple real-world datasets show that Juno generalizes to heterogeneous documents with diverse layouts and formats. It outperforms state-of-the-art baselines by more than 6 F1 points with up to 60% less human-labeled samples. Our experiments further show that Juno is a computationally robust framework. We can train it only once, and then adapt it dynamically for multiple resource-constrained environments without sacrificing its downstream performance. This makes it suitable for on-device deployment in various edge-devices. To the best of our knowledge, ours is the first work that investigates the information incompleteness of visually rich documents and proposes a generalizable, performant and computationally robust framework to address it in an end-to-end way.

arxiv情報

著者 Ritesh Sarkhel,Arnab Nandi
発行日 2024-03-30 21:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.IR, cs.LG パーマリンク