要約
タイトル:Vision Learners Meet Web Image-Text Pairs(ビジョン学習者がウェブ画像テキストペアに出会う)
要約:
– 最近の自己教師あり学習方法は、手入れが行き届いたImageNet-1Kデータセットで事前学習されています。
– 本研究では、ウェブデータの優れたスケーラビリティを考慮して、ノイズのあるウェブソースの画像テキストペアデータで自己教師ありの事前学習を行います。
– まず、代表的な自己教師あり事前学習方法を、同等の設定で大規模なウェブデータに対してベンチマークスタディを行います。
– マスクされたトレーニング目的を使用する単一モーダルな方法と、画像テキスト対比的トレーニングを使用するマルチモーダルな方法を含む、一連の方法を比較します。
– 我々は、既存のマルチモーダルな方法がビジョン転移学習タスクで単一モーダルの対等な方法より優れていないことを観察します。
– これらのベンチマーク結果を説明する情報理論的な視点を導き出し、新しいビジョン学習者を設計する方法を示唆します。
– この洞察にインスピレーションを受けて、スケーラブルなウェブソースの画像テキストデータから学習するマルチモーダルジェネレーター(MUG)という新しい視覚表現事前学習方法を提案します。
– MUGは、さまざまなタスクで最先端の転移性能を達成し、有望なスケーリング特性を示しています。事前トレーニングされたモデルとコードは、受理時に公開されます。
要約(オリジナル)
Most recent self-supervised learning methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, given the excellent scalability of web data, we consider self-supervised pre-training on noisy web sourced image-text paired data. First, we conduct a benchmark study of representative self-supervised pre-training methods on large-scale web data in a like-for-like setting. We compare a range of methods, including single-modal ones that use masked training objectives and multi-modal ones that use image-text constrastive training. We observe that existing multi-modal methods do not outperform their single-modal counterparts on vision transfer learning tasks. We derive an information-theoretical view to explain these benchmark results, which provides insight into how to design a novel vision learner. Inspired by this insight, we present a new visual representation pre-training method, MUlti-modal Generator~(MUG), that learns from scalable web sourced image-text data. MUG achieves state-of-the-art transfer performance on a variety of tasks and demonstrates promising scaling properties. Pre-trained models and code will be made public upon acceptance.
arxiv情報
著者 | Bingchen Zhao,Quan Cui,Hao Wu,Osamu Yoshie,Cheng Yang,Oisin Mac Aodha |
発行日 | 2023-04-05 16:22:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI