On Data Scaling in Masked Image Modeling

要約

自己教師付き学習の重要な目標は、ほぼ無制限のデータから恩恵を受けるモデルの事前学習を可能にすることである。しかし、最近よく使われるようになった手法であるマスク画像モデリング(MIM)は、より大きなデータから利益を得られないと疑われている。本研究では、データ規模をImageNet-1Kの10%からImageNet-22Kまで、モデルサイズを4900万から10億まで、学習回数を12万5000回から50万回までとし、大規模実験を行い、この誤解を解いた。我々の研究により、以下のことが明らかになった。(i)マスキングイメージモデリングは、大規模なデータに対しても要求が厳しい。(2)学習時間の長さが重要である。(iii)事前学習における検証損失は、複数のタスクに対する微調整を行う際に、モデルの性能を測定する良い指標となる。この観察により、下流のタスクに対してコストのかかる試行錯誤を行うことなく、事前学習したモデルを事前に評価することができるようになりました。今回の発見により、マスク画像モデリングのスケーリング能力に関する理解が進むことを期待しています。

要約(オリジナル)

An important goal of self-supervised learning is to enable model pre-training to benefit from almost unlimited data. However, one method that has recently become popular, namely masked image modeling (MIM), is suspected to be unable to benefit from larger data. In this work, we break this misconception through extensive experiments, with data scales ranging from 10\% of ImageNet-1K to full ImageNet-22K, model sizes ranging from 49 million to 1 billion, and training lengths ranging from 125K iterations to 500K iterations. Our study reveals that: (i) Masked image modeling is also demanding on larger data. We observed that very large models got over-fitted with relatively small data; (ii) The length of training matters. Large models trained with masked image modeling can benefit from more data with longer training; (iii) The validation loss in pre-training is a good indicator to measure how well the model performs for fine-tuning on multiple tasks. This observation allows us to pre-evaluate pre-trained models in advance without having to make costly trial-and-error assessments of downstream tasks. We hope that our findings will advance the understanding of masked image modeling in terms of scaling ability.

arxiv情報

著者 Zhenda Xie,Zheng Zhang,Yue Cao,Yutong Lin,Yixuan Wei,Qi Dai,Han Hu
発行日 2022-06-09 17:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク