Masked Autoencoding Does Not Help Natural Language Supervision at Scale

要約

タイトル：大規模自然言語指導において、マスク自己符号化は役立たない

要約：
– 自己監督学習と自然言語監督学習は、一般的な画像エンコーダのトレーニング方法として、さまざまな下流タスクで優れた成果を挙げている。
– 直近の研究成果（M3AE、SLIP）では、これらの手法を効果的に組み合わせることができると示唆された。ただし、これらの結果は小規模なプレトレーニングデータセット（<50Mサンプル）を使用しており、より大規模な領域（>100Mの例）に効果的に適用されていませんでした。
– 本研究では、より多くのデータを使用した時に、同様の手法が効果的であるかどうかを調査しています。
– 我々は、11.3M個のイメージ-テキストペアのコーパスでトレーニングされた時、マスク自己符号化器（MAE）と比較言語イメージプレトレーニング（CLIP）の両方を組み合わせた手法がCLIPよりも優れた結果を示したが、1.4B個のイメージの大規模なコーパスでトレーニングされた場合、CLIPと比較してほとんどメリットがなかった（共通のビジョンタスクスイートで評価）。
– 本研究は、大規模な画像-テキストトレーニングにおける自己監督学習の効果に関する明確な情報を提供します。

要点：
– 自己監督学習と自然言語監督学習は、一般的な画像エンコーダのトレーニング方法として優れた成果を挙げる。
– 直近の研究成果では、これらの手法を効果的に組み合わせることができることが示唆されたが、小規模なデータにしか効果がなかった。
– 本研究では、より多くのデータを使用して同様の手法を調査している。
– マスク自己符号化器（MAE）と比較言語イメージプレトレーニング（CLIP）の両方を組み合わせた手法が、小規模なデータセットではCLIPよりも優れた成果を示したが、大規模なデータセットでは効果がなかった。
– 本研究は、自己監督学習が大規模な画像-テキストトレーニングにおいて有効であるかどうかに関する情報を提供する。

要約(オリジナル)

Self supervision and natural language supervision have emerged as two exciting ways to train general purpose image encoders which excel at a variety of downstream tasks. Recent works such as M3AE and SLIP have suggested that these approaches can be effectively combined, but most notably their results use small pre-training datasets (<50M samples) and don't effectively reflect the large-scale regime (>100M examples) that is commonly used for these approaches. Here we investigate whether a similar approach can be effective when trained with a much larger amount of data. We find that a combination of two state of the art approaches: masked auto-encoders, MAE and contrastive language image pre-training, CLIP provides a benefit over CLIP when trained on a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B images. Our work provides some much needed clarity into the effectiveness (or lack thereof) of self supervision for large-scale image-text training.

arxiv情報

著者	Floris Weers,Vaishaal Shankar,Angelos Katharopoulos,Yinfei Yang,Tom Gunter
発行日	2023-04-25 01:47:15+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

Masked Autoencoding Does Not Help Natural Language Supervision at Scale

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー