要約
クロスモーダル アライメントは、視覚言語事前トレーニング (VLP) モデルにおいて重要な役割を果たし、さまざまなモダリティ間で意味のある関連性をキャプチャできるようにします。
この目的のために、NLP の事前トレーニング領域におけるマスク言語モデリング (MLM) タスクの成功に触発されて、クロスモーダル インタラクションをさらに促進するために VLP 用の多数のマスク モデリング タスクが提案されています。
これまでのマスクされたモデリング タスクの中心的な考え方は、ローカル間アライメント、つまり画像パッチとテキスト トークン間の関連性を学習するために、目に見えるコンテキストに基づいてマスクされたトークンを再構築することに焦点を当てることです。
しかし、それらのほとんどは、マスクされたデータに対して生成されたグローバルな意味論的特徴にはほとんど注意を払わないため、他のモダリティのローカルな特徴に対するグローバル表現のクロスモーダル調整能力が制限されます。
したがって、この論文では、グローバルとローカルのアライメントとローカルとローカルのアライメントを同時に促進する、新しいグローバルおよびローカル セマンティック完了学習 (GLSCL) タスクを提案します。
具体的には、GLSCL タスクは、マスクされたデータの欠落しているセマンティクスを補完し、クロスモーダル対話によってグローバルおよびローカルの特徴を回復します。
私たちの GLSCL は、マスクされたグローバル セマンティック補完 (MGSC) とマスクされたローカル トークン補完 (MLTC) で構成されます。
MGSC は、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバル特徴の学習を促進し、MLTC はマルチモーダル データの正確な理解をさらに強化できます。
さらに、モデルが画像テキストとビデオテキストのマルチモーダル タスクを同時に実行できるようにする、柔軟なビジョン エンコーダーを紹介します。
実験結果は、私たちの提案した方法が、視覚的な質問応答、画像テキスト検索、ビデオテキスト検索などのさまざまな視覚言語ベンチマークで最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Cross-modal alignment plays a crucial role in vision-language pre-training (VLP) models, enabling them to capture meaningful associations across different modalities. For this purpose, inspired by the success of masked language modeling (MLM) tasks in the NLP pre-training area, numerous masked modeling tasks have been proposed for VLP to further promote cross-modal interactions. The core idea of previous masked modeling tasks is to focus on reconstructing the masked tokens based on visible context for learning local-local alignment, i.e., associations between image patches and text tokens. However, most of them pay little attention to the global semantic features generated for the masked data, resulting in a limited cross-modal alignment ability of global representations to local features of the other modality. Therefore, in this paper, we propose a novel Global and Local Semantic Completion Learning (GLSCL) task to facilitate global-local alignment and local-local alignment simultaneously. Specifically, the GLSCL task complements the missing semantics of masked data and recovers global and local features by cross-modal interactions. Our GLSCL consists of masked global semantic completion (MGSC) and masked local token completion (MLTC). MGSC promotes learning more representative global features which have a great impact on the performance of downstream tasks, and MLTC can further enhance accurate comprehension on multimodal data. Moreover, we present a flexible vision encoder, enabling our model to simultaneously perform image-text and video-text multimodal tasks. Experimental results show that our proposed method obtains state-of-the-art performance on various vision-language benchmarks, such as visual question answering, image-text retrieval, and video-text retrieval.
arxiv情報
著者 | Rong-Cheng Tu,Yatai Ji,Jie Jiang,Weijie Kong,Chengfei Cai,Wenzhe Zhao,Hongfa Wang,Yujiu Yang,Wei Liu |
発行日 | 2023-06-12 13:20:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google