3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding

要約

この論文では、視覚的に豊富な形式の文書を理解するための、画期的なマルチモーダル、マルチタスク、マルチ教師による共同粒度の知識蒸留モデルを紹介します。
このモデルは、トークンとエンティティの表現の間の微妙な相関関係を容易にし、フォーム ドキュメントに固有の複雑さに対処することで、粒度の細かいレベルと粗いレベルの両方からの洞察を活用するように設計されています。
さらに、新しい粒内損失関数と横粒損失関数を導入して、多様な複数教師の知識蒸留プロセスをさらに洗練し、分布ギャップとフォーム文書の調和された理解を提示します。
公開されているフォーム文書理解データセットにわたる包括的な評価を通じて、私たちが提案するモデルは一貫して既存のベースラインを上回り、視覚的に複雑なフォーム文書の複雑な構造とコンテンツの処理におけるその有効性を示しています。

要約(オリジナル)

This paper presents a groundbreaking multimodal, multi-task, multi-teacher joint-grained knowledge distillation model for visually-rich form document understanding. The model is designed to leverage insights from both fine-grained and coarse-grained levels by facilitating a nuanced correlation between token and entity representations, addressing the complexities inherent in form documents. Additionally, we introduce new inter-grained and cross-grained loss functions to further refine diverse multi-teacher knowledge distillation transfer process, presenting distribution gaps and a harmonised understanding of form documents. Through a comprehensive evaluation across publicly available form document understanding datasets, our proposed model consistently outperforms existing baselines, showcasing its efficacy in handling the intricate structures and content of visually complex form documents.

arxiv情報

著者 Yihao Ding,Lorenzo Vaiani,Caren Han,Jean Lee,Paolo Garza,Josiah Poon,Luca Cagliero
発行日 2024-07-26 06:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク