Vision Learners Meet Web Image-Text Pairs

要約

多くの自己教師あり学習手法は、厳選された ImageNet-1K データセットで事前トレーニングされています。
この研究では、Web データの優れたスケーラビリティを考慮して、ノイズの多い Web ソースの画像とテキストのペア データに対する自己教師ありの事前トレーニングを検討します。
まず、同様の設定で大規模な Web データに対して、代表的な自己教師あり事前トレーニング手法のベンチマーク研究を実行します。
マスクされたトレーニング目標を使用するシングルモーダルな方法や、画像とテキストの対照的トレーニングを使用するマルチモーダルな方法など、さまざまな方法を比較します。
既存のマルチモーダル手法は、視覚伝達学習タスクに関してシングルモーダル手法よりも優れたパフォーマンスを発揮しないことが観察されています。
これらのベンチマーク結果を説明する情報理論的見解を導き出し、新しい視覚学習器を設計する方法についての洞察を提供します。
この洞察にインスピレーションを得て、スケーラブルな Web ソースの画像テキスト データから学習する、新しい視覚表現の事前トレーニング方法、MUlti-modal Generator~(MUG) を紹介します。
MUG は、さまざまなタスクで最先端の転送パフォーマンスを実現し、有望なスケーリング特性を実証します。
事前トレーニングされたモデルとコードは、承認され次第公開されます。

要約(オリジナル)

Many self-supervised learning methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, given the excellent scalability of web data, we consider self-supervised pre-training on noisy web sourced image-text paired data. First, we conduct a benchmark study of representative self-supervised pre-training methods on large-scale web data in a like-for-like setting. We compare a range of methods, including single-modal ones that use masked training objectives and multi-modal ones that use image-text constrastive training. We observe that existing multi-modal methods do not outperform their single-modal counterparts on vision transfer learning tasks. We derive an information-theoretical view to explain these benchmark results, which provides insight into how to design a novel vision learner. Inspired by this insight, we present a new visual representation pre-training method, MUlti-modal Generator~(MUG), that learns from scalable web sourced image-text data. MUG achieves state-of-the-art transfer performance on a variety of tasks and demonstrates promising scaling properties. Pre-trained models and code will be made public upon acceptance.

arxiv情報

著者 Bingchen Zhao,Quan Cui,Hao Wu,Osamu Yoshie,Cheng Yang,Oisin Mac Aodha
発行日 2024-08-05 15:38:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク