Data Filtering Networks

要約

大規模なトレーニング セットは機械学習の基礎となっており、言語モデリングとマルチモーダル学習の最近の進歩の基盤となっています。
事前トレーニングのためのデータ キュレーションは依然としてアドホックであることが多いですが、一般的なパラダイムの 1 つは、まず Web から大量のデータ プールを収集し、次にこの候補プールをさまざまなヒューリスティックによって実際のトレーニング セットにフィルタリングすることです。
この研究では、大規模な未キュレーションのデータセットをフィルタリングする 2 番目のステップとして、データ フィルタリング ネットワーク (DFN) を学習する問題を研究します。
私たちの重要な発見は、フィルタリング用のネットワークの品質は、下流のタスクでのパフォーマンスとは異なるということです。たとえば、ImageNet で良好にパフォーマンスするモデルは、少量でトレーニングされた ImageNet の精度が低いモデルよりも悪いトレーニング セットを生成する可能性があります。
高品質なデータを提供します。
私たちの洞察に基づいて、最先端の画像テキスト データセットを生成する新しいデータ フィルタリング ネットワークを構築します。
具体的には、当社の最高パフォーマンスのデータセット DFN-5B により、コンピューティング予算に応じて最先端のモデルをトレーニングできるようになります。さまざまなタスクの改善の中でも特に、当社のデータセットでトレーニングされた ViT-H は 83.0% のゼロショット転送を達成しました。
ImageNet での精度は、LAION-2B、DataComp-1B、OpenAI の WIT などの他のデータセットでトレーニングされたモデルよりも優れています。
データセット設計におけるさらなる研究を促進するために、新しい 20 億のサンプル データセット DFN-2B もリリースし、公開されているデータのみを使用して高性能データ フィルタリング ネットワークを最初からトレーニングできることを示します。

要約(オリジナル)

Large training sets have become a cornerstone of machine learning and are the foundation for recent advances in language modeling and multimodal learning. While data curation for pre-training is often still ad-hoc, one common paradigm is to first collect a massive pool of data from the Web and then filter this candidate pool down to an actual training set via various heuristics. In this work, we study the problem of learning a data filtering network (DFN) for this second step of filtering a large uncurated dataset. Our key finding is that the quality of a network for filtering is distinct from its performance on downstream tasks: for instance, a model that performs well on ImageNet can yield worse training sets than a model with low ImageNet accuracy that is trained on a small amount of high-quality data. Based on our insights, we construct new data filtering networks that induce state-of-the-art image-text datasets. Specifically, our best performing dataset DFN-5B enables us to train state-of-the-art models for their compute budgets: among other improvements on a variety of tasks, a ViT-H trained on our dataset achieves 83.0% zero-shot transfer accuracy on ImageNet, out-performing models trained on other datasets such as LAION-2B, DataComp-1B, or OpenAI’s WIT. In order to facilitate further research in dataset design, we also release a new 2 billion example dataset DFN-2B and show that high performance data filtering networks can be trained from scratch using only publicly available data.

arxiv情報

著者 Alex Fang,Albin Madappally Jose,Amit Jain,Ludwig Schmidt,Alexander Toshev,Vaishaal Shankar
発行日 2023-09-29 17:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク