要約
最近の自己教師付き事前トレーニング技術の出現により、フォーム文書の理解におけるマルチモーダル学習の使用が急増しています。
ただし、マスク言語モデリングを他のモダリティに拡張する既存のアプローチでは、注意深いマルチタスク調整、複雑な再構成ターゲット設計、または追加の事前トレーニング データが必要です。
FormNetV2 では、集中型マルチモーダル グラフ対比学習戦略を導入し、すべてのモダリティの自己教師あり事前トレーニングを 1 回の損失で統合します。
グラフの対照的な目的により、マルチモーダル表現の一致が最大化され、特別なカスタマイズを行わずにすべてのモダリティに自然な相互作用が提供されます。
さらに、グラフのエッジで接続されたトークンのペアを結合する境界ボックス内の画像特徴を抽出し、高度で個別に事前トレーニングされた画像エンベッダーをロードせずに、よりターゲットを絞った視覚的手がかりをキャプチャします。
FormNetV2 は、よりコンパクトなモデル サイズで、FUNSD、CORD、SROIE、Payment ベンチマークにおける新しい最先端のパフォーマンスを確立します。
要約(オリジナル)
The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.
arxiv情報
著者 | Chen-Yu Lee,Chun-Liang Li,Hao Zhang,Timothy Dozat,Vincent Perot,Guolong Su,Xiang Zhang,Kihyuk Sohn,Nikolai Glushnev,Renshen Wang,Joshua Ainslie,Shangbang Long,Siyang Qin,Yasuhisa Fujii,Nan Hua,Tomas Pfister |
発行日 | 2023-06-13 04:27:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google