Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment

要約

視覚と言語の事前学習は、マルチモーダルな下流タスクに取り組むための一般的なアプローチになっています。現在のトレンドは、より大規模なモデルと事前学習データセットに移行することです。このような計算は、長期的に見ると、持続可能な解決策に向かうためには合理的とは言えず、事実上、リソースの限られた学術研究室は排除されています。本研究では、ViCHAと呼ばれる新しいフレームワークを提案し、入力データを効率的に利用して学習を促進させる。(a) 階層的なクロスモーダルアライメントロス、(b) マスキング画像モデリングに基づく自己教師方式、(c) CLIPなどの既存の基礎モデルで得られた画像レベルの注釈(Visual Concepts)を利用して画像符号化器の性能を向上させる、ViCHAと呼ばれる新しいフレームワークを提案する。4倍少ないデータで事前学習したにもかかわらず、我々のViCHA戦略は、画像-テキスト検索、VQA、視覚的推論、視覚的内包、視覚的接地などの下流タスクにおいて他のアプローチより優れています。コードはこちらで公開される予定です: https://github.com/mshukor/ViCHA

要約(オリジナル)

Vision and Language Pretraining has become the prevalent approach for tackling multimodal downstream tasks. The current trend is to move towards ever larger models and pretraining datasets. This computational headlong rush does not seem reasonable in the long term to move toward sustainable solutions, and de facto excludes academic laboratories with limited resources. In this work, we propose a new framework, dubbed ViCHA, that efficiently exploits the input data to boost the learning by: (a) a new hierarchical cross-modal alignment loss, (b) new self-supervised scheme based on masked image modeling, (c) leveraging image-level annotations, called Visual Concepts, obtained with existing foundation models such as CLIP to boost the performance of the image encoder. Although pretrained on four times less data, our ViCHA strategy outperforms other approaches on several downstream tasks such as Image-Text Retrieval, VQA, Visual Reasoning, Visual Entailment and Visual Grounding. The code will be made publicly available here: https://github.com/mshukor/ViCHA

arxiv情報

著者 Mustafa Shukor,Guillaume Couairon,Matthieu Cord
発行日 2022-10-05 11:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク