Delving Deeper into Data Scaling in Masked Image Modeling

要約

自己教師あり学習手法が無制限のデータで拡張できるかどうかを理解することは、大規模なモデルをトレーニングする場合に重要です。
この研究では、視覚認識のためのマスク画像モデリング (MIM) 手法 (MAE など) のスケーリング能力に関する実証研究を実施します。
手動でキュレーションされオブジェクト中心で広く使用されている ImageNet データセットに依存するこれまでの研究のほとんどとは異なり、私たちはさらに一歩進んで、より実用的な設定でこの問題を調査することを提案します。
具体的には、Web で収集された Coyo-700M データセットを利用します。
Coyo データセットからさまざまな数のトレーニング画像をランダムにサンプリングし、事前トレーニング用に 0.5M、1M、5M、10M、100M の画像を含む一連のサブデータセットを構築します。
私たちの目標は、さまざまなサイズのデータ​​とモデルに合わせてスケーリングしたときに、ダウンストリーム タスクのパフォーマンスがどのように変化するかを調査することです。
この研究では、1) MIM は、トレーニング データの規模が比較的小さい場合にモデルの能力を向上させる効果的な方法と見なすことができます。
2) 強力な再構築ターゲットにより、モデルの下流タスクの処理能力が向上します。
3) MIM 事前トレーニングは、ほとんどのシナリオでデータに依存しません。つまり、事前トレーニング データのサンプリング戦略は重要ではありません。
これらの観察が、MIM に関する将来の研究に貴重な洞察を提供できることを願っています。

要約(オリジナル)

Understanding whether self-supervised learning methods can scale with unlimited data is crucial for training large-scale models. In this work, we conduct an empirical study on the scaling capability of masked image modeling (MIM) methods (e.g., MAE) for visual recognition. Unlike most previous works that depend on the widely-used ImageNet dataset, which is manually curated and object-centric, we take a step further and propose to investigate this problem in a more practical setting. Specifically, we utilize the web-collected Coyo-700M dataset. We randomly sample varying numbers of training images from the Coyo dataset and construct a series of sub-datasets, containing 0.5M, 1M, 5M, 10M, and 100M images, for pre-training. Our goal is to investigate how the performance changes on downstream tasks when scaling with different sizes of data and models. The study reveals that: 1) MIM can be viewed as an effective method to improve the model capacity when the scale of the training data is relatively small; 2) Strong reconstruction targets can endow the models with increased capacities on downstream tasks; 3) MIM pre-training is data-agnostic under most scenarios, which means that the strategy of sampling pre-training data is non-critical. We hope these observations could provide valuable insights for future research on MIM.

arxiv情報

著者 Cheng-Ze Lu,Xiaojie Jin,Qibin Hou,Jun Hao Liew,Ming-Ming Cheng,Jiashi Feng
発行日 2023-05-24 15:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク