X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

要約

視覚言語の事前トレーニングは、大量のデータから視覚と言語の整合性を学習することを目的としています。
マルチグレイン ビジョン言語事前トレーニングを提案しました。これは、ビジョン言語のアラインメントを複数の粒度で学習できる統一されたアプローチです。
この論文では、画像とビデオの符号化を 1 つのモデルに統合し、モデルを大規模データでスケールアップすることにより、提案された方法を進めます。
X$^2$-VLM は、画像テキスト タスクとビデオ テキスト タスクの両方に対応するモジュラー アーキテクチャを備えた事前トレーニング済みの VLM です。
実験結果は、X$^2$-VLM が画像テキスト タスクとビデオ テキスト タスクの両方で基本スケールと大スケールで最高のパフォーマンスを発揮し、パフォーマンスとモデル スケールの間で適切なトレードオフを行うことを示しています。
さらに、X$^2$-VLM のモジュール設計により、X$^2$-VLM が任意の言語またはドメインで利用できる高い移植性が得られることを示します。
たとえば、テキスト エンコーダーを XLM-R に置き換えるだけで、X$^2$-VLM は、多言語の事前トレーニングなしで、最先端の多言語マルチモーダル事前トレーニング済みモデルよりも優れたパフォーマンスを発揮します。
コードと事前トレーニング済みのモデルは、github.com/zengyan-97/X2-VLM で入手できます。

要約(オリジナル)

Vision language pre-training aims to learn alignments between vision and language from a large amount of data. We proposed multi-grained vision language pre-training, a unified approach which can learn vision language alignments in multiple granularity. This paper advances the proposed method by unifying image and video encoding in one model and scaling up the model with large-scale data. We present X$^2$-VLM, a pre-trained VLM with a modular architecture for both image-text tasks and video-text tasks. Experiment results show that X$^2$-VLM performs the best on base and large scale for both image-text and video-text tasks, making a good trade-off between performance and model scale. Moreover, we show that the modular design of X$^2$-VLM results in high transferability for X$^2$-VLM to be utilized in any language or domain. For example, by simply replacing the text encoder with XLM-R, X$^2$-VLM outperforms state-of-the-art multilingual multi-modal pre-trained models without any multilingual pre-training. The code and pre-trained models will be available at github.com/zengyan-97/X2-VLM.

arxiv情報

著者 Yan Zeng,Xinsong Zhang,Hang Li,Jiawei Wang,Jipeng Zhang,Wangchunshu Zhou
発行日 2022-11-22 16:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク