EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

要約

我々は、一般に入手可能なデータのみを用いて、スケールでの視覚表現の限界を探るために、視覚中心の基礎モデルであるEVAを発表する。EVAは、可視画像パッチを条件として、マスクされた画像とテキストに整合した視覚特徴を再構成するように事前に学習されたバニラViTである。このプリテキストタスクを用いて、EVAを10億パラメータまで効率的にスケールアップし、重い教師付き訓練なしに、画像認識、ビデオ行動認識、物体検出、インスタンス分割、意味分割など、ビジョンダウンストリームを代表する幅広いタスクにおいて新記録を達成しました。さらに、EVAのスケーリングの定量的な変化が、他のモデルにはない転移学習性能の定性的な変化をもたらすことも観測されています。例えば、EVAは大語彙のインスタンス分割という難易度の高いタスクで大きな飛躍を遂げ、我々のモデルは1000以上のカテゴリを持つLVISv1.0データと80カテゴリしか持たないCOCOデータでほぼ同じ最新鋭の性能を達成することができた。EVAは、純粋なビジョンエンコーダーとしてだけでなく、画像とテキストをつなぐビジョン中心のマルチモーダルピボットとしても機能します。我々は、EVAから巨大なCLIPのビジョンタワーを初期化することで、少ないサンプルと少ない計算量で、学習を大きく安定させ、ゼロからの学習を凌駕することを発見し、マルチモーダル基礎モデルの大規模化とコストのかかる学習を加速させる新しい方向性を提供することができます。今後の研究を促進するため、全てのコードとモデルを https://github.com/baaivision/EVA で公開しています。

要約(オリジナル)

We launch EVA, a vision-centric foundation model to explore the limits of visual representation at scale using only publicly accessible data. EVA is a vanilla ViT pre-trained to reconstruct the masked out image-text aligned vision features conditioned on visible image patches. Via this pretext task, we can efficiently scale up EVA to one billion parameters, and sets new records on a broad range of representative vision downstream tasks, such as image recognition, video action recognition, object detection, instance segmentation and semantic segmentation without heavy supervised training. Moreover, we observe quantitative changes in scaling EVA result in qualitative changes in transfer learning performance that are not present in other models. For instance, EVA takes a great leap in the challenging large vocabulary instance segmentation task: our model achieves almost the same state-of-the-art performance on LVISv1.0 dataset with over a thousand categories and COCO dataset with only eighty categories. Beyond a pure vision encoder, EVA can also serve as a vision-centric, multi-modal pivot to connect images and text. We find initializing the vision tower of a giant CLIP from EVA can greatly stabilize the training and outperform the training from scratch counterpart with much fewer samples and less compute, providing a new direction for scaling up and accelerating the costly training of multi-modal foundation models. To facilitate future research, we release all the code and models at https://github.com/baaivision/EVA.

arxiv情報

著者 Yuxin Fang,Wen Wang,Binhui Xie,Quan Sun,Ledell Wu,Xinggang Wang,Tiejun Huang,Xinlong Wang,Yue Cao
発行日 2022-12-05 13:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク