要約
基礎モデルまたは事前トレーニング済みモデルは、さまざまな言語、視覚、および視覚言語理解タスクのパフォーマンスを大幅に改善しました。
ただし、既存の基盤モデルは、言語、ビジョン、またはビジョン言語という 1 つのタイプのタスクでのみ最高のパフォーマンスを発揮できます。
一般的な基礎モデルと呼ばれる、すべての理解タスクに最適な基礎モデルを構築できるかどうかは、まだ未解決の問題です。
この論文では、新しい一般的な基盤モデルである X-FM (X-Foundation Model) を提案します。
X-FM には、1 つの言語エンコーダー、1 つのビジョン エンコーダー、および 1 つのフュージョン エンコーダーと、新しいトレーニング方法があります。
トレーニング方法には、テキスト、画像、および画像とテキストのペア データから X-FM を学習するための 2 つの新しい手法が含まれています。
1 つは、言語エンコーダーを学習するときに視覚言語トレーニングからの勾配を停止することです。
もう 1 つは、ビジョン言語トレーニングを活用して、ビジョン エンコーダーの学習をガイドすることです。
ベンチマーク データセットに関する広範な実験では、X-FM が既存の一般的な基礎モデルよりも大幅に優れており、特に言語、視覚、または視覚と言語の理解に関して、既存の基礎モデルよりも優れているか、同等のパフォーマンスを発揮できることが示されています。
要約(オリジナル)
Foundation models or pre-trained models have substantially improved the performance of various language, vision, and vision-language understanding tasks. However, existing foundation models can only perform the best in one type of tasks, namely language, vision, or vision-language. It is still an open question whether it is possible to construct a foundation model performing the best for all the understanding tasks, which we call a general foundation model. In this paper, we propose a new general foundation model, X-FM (the X-Foundation Model). X-FM has one language encoder, one vision encoder, and one fusion encoder, as well as a new training method. The training method includes two new techniques for learning X-FM from text, image, and image-text pair data. One is to stop gradients from the vision-language training when learning the language encoder. The other is to leverage the vision-language training to guide the learning of the vision encoder. Extensive experiments on benchmark datasets show that X-FM can significantly outperform existing general foundation models and perform better than or comparable to existing foundation models specifically for language, vision, or vision-language understanding.
arxiv情報
著者 | Xinsong Zhang,Yan Zeng,Jipeng Zhang,Hang Li |
発行日 | 2023-01-12 15:03:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google