Masked Autoencoding Does Not Help Natural Language Supervision at Scale

要約

セルフスーパービジョンと自然言語スーパービジョンは、様々な下流タスクに秀でた汎用的な画像エンコーダを訓練する2つのエキサイティングな方法として登場した。M3AEやSLIPのような最近の研究は、これらのアプローチを効果的に組み合わせることができることを示唆していますが、最も注目すべきは、これらの結果が小さな事前学習データセット(<50Mサンプル)を使用しており、これらのアプローチに一般的に使用されている大規模な体制(>100Mサンプル)を効果的に反映していないことです。ここでは、同様のアプローチが、より大量のデータで訓練した場合に有効であるかどうかを調査する。我々は、2つの最先端アプローチであるマスクドオートエンコーダ、MAEと対照言語画像事前学習、CLIPの組み合わせは、11.3Mの画像-テキストペアのコーパスで学習した場合にはCLIPよりも効果があるが、14億画像の大規模コーパスで学習した場合にはCLIPよりも効果がほとんどない(一連の一般的視覚タスクで評価)ことを発見した。本研究は、大規模な画像-テキスト学習における自己監視の有効性(またはその欠如)について、必要ないくつかの明確な情報を提供します。

要約(オリジナル)

Self supervision and natural language supervision have emerged as two exciting ways to train general purpose image encoders which excel at a variety of downstream tasks. Recent works such as M3AE and SLIP have suggested that these approaches can be effectively combined, but most notably their results use small pre-training datasets (<50M samples) and don't effectively reflect the large-scale regime (>100M examples) that is commonly used for these approaches. Here we investigate whether a similar approach can be effective when trained with a much larger amount of data. We find that a combination of two state of the art approaches: masked auto-encoders, MAE and contrastive language image pre-training, CLIP provides a benefit over CLIP when trained on a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B images. Our work provides some much needed clarity into the effectiveness (or lack thereof) of self supervision for large-scale image-text training.

arxiv情報

著者 Floris Weers,Vaishaal Shankar,Angelos Katharopoulos,Yinfei Yang,Tom Gunter
発行日 2023-05-15 17:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク