MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model

要約

マルチモーダルな意味理解では、多くの場合、不確実性に対処する必要があります。これは、取得されたメッセージが複数のターゲットを参照する傾向があることを意味します。
このような不確実性は、モード間およびモード内の不確実性を含め、私たちの解釈にとって問題となります。
この不確実性のモデリング、特にラベルのないデータセットでの事前トレーニングやタスク固有の下流データセットでの微調整については、ほとんど研究されていません。
この論文では、系列レベルの相互作用を利用して、確率分布エンコーダ (PDE) を介してすべてのモダリティの表現を確率分布として投影します。
既存の決定論的手法と比較して、このような不確実性モデリングは、より豊富なマルチモーダルなセマンティック情報とより複雑な関係を伝えることができます。
さらに、不確実性モデリングを一般的な事前トレーニング フレームワークと統合し、適切な事前トレーニング タスクである分布ベースの視覚言語対照学習 (D-VLC)、分布ベースのマスク言語モデリング (D-MLM)、および分布ベースの画像テキスト マッチング (D-ITM) を提案します。
微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的含意などの困難な下流タスクに適用され、最先端の結果が得られます。

要約(オリジナル)

Multimodal semantic understanding often has to deal with uncertainty, which means the obtained messages tend to refer to multiple targets. Such uncertainty is problematic for our interpretation, including inter- and intra-modal uncertainty. Little effort has studied the modeling of this uncertainty, particularly in pre-training on unlabeled datasets and fine-tuning in task-specific downstream datasets. In this paper, we project the representations of all modalities as probabilistic distributions via a Probability Distribution Encoder (PDE) by utilizing sequence-level interactions. Compared to the existing deterministic methods, such uncertainty modeling can convey richer multimodal semantic information and more complex relationships. Furthermore, we integrate uncertainty modeling with popular pre-training frameworks and propose suitable pre-training tasks: Distribution-based Vision-Language Contrastive learning (D-VLC), Distribution-based Masked Language Modeling (D-MLM), and Distribution-based Image-Text Matching (D-ITM). The fine-tuned models are applied to challenging downstream tasks, including image-text retrieval, visual question answering, visual reasoning, and visual entailment, and achieve state-of-the-art results.

arxiv情報

著者 Yatai Ji,Junjie Wang,Yuan Gong,Lin Zhang,Yanru Zhu,Hongfa Wang,Jiaxing Zhang,Tetsuya Sakai,Yujiu Yang
発行日 2023-07-20 16:24:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク