VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification

要約

ドキュメントデータからのマルチモーダル学習は、学習可能なダウンストリームアプローチの前に、意味的に意味のある機能を事前にトレーニングできるため、最近大きな成功を収めています。
この論文では、モダリティ内およびモダリティ間の関係を考慮して、言語と視覚の手がかりを通じてクロスモーダル表現を学習することにより、ドキュメント分類の問題に取り組みます。
異なるモダリティからの機能を共通の表現空間にマージする代わりに、提案された方法は、高レベルの相互作用を活用し、モダリティ内およびモダリティ間の効果的な注意フローから関連する意味情報を学習します。
提案された学習目標は、モダリティ内およびモダリティ間アライメントタスク間で考案され、タスクごとの類似性分布は、共通の特徴表現空間で負のサンプルペアを同時に対比しながら正のサンプルペアを縮小することによって計算されます}。
公開ドキュメント分類データセットに関する広範な実験は、小規模データセットと大規模データセットの両方でのモデルの有効性と一般化能力を示しています。

要約(オリジナル)

Multimodal learning from document data has achieved great success lately as it allows to pre-train semantically meaningful features as a prior into a learnable downstream approach. In this paper, we approach the document classification problem by learning cross-modal representations through language and vision cues, considering intra- and inter-modality relationships. Instead of merging features from different modalities into a common representation space, the proposed method exploits high-level interactions and learns relevant semantic information from effective attention flows within and across modalities. The proposed learning objective is devised between intra- and inter-modality alignment tasks, where the similarity distribution per task is computed by contracting positive sample pairs while simultaneously contrasting negative ones in the common feature representation space}. Extensive experiments on public document classification datasets demonstrate the effectiveness and the generalization capacity of our model on both low-scale and large-scale datasets.

arxiv情報

著者 Souhail Bakkali,Zuheng Ming,Mickael Coustaty,Marçal Rusiñol,Oriol Ramos Terrades
発行日 2022-07-11 14:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク