Scaling Laws for Data Filtering — Data Curation cannot be Compute Agnostic

要約

ビジョン言語モデル (VLM) は、慎重に厳選された Web データセットで数千 GPU 時間かけてトレーニングされます。
最近では、データキュレーションが注目を集めており、スクレイピングされた「生」データの「高品質」サブセットを保持する戦略を開発するいくつかの研究が行われています。
たとえば、LAION パブリック データセットは、クロールされたデータ全体の 10% のみを保持していました。
ただし、これらの戦略は通常、トレーニングに利用可能なコンピューティングに依存せずに開発されます。
この論文では、トレーニング コンピューティングから独立してフィルタリングの決定を行うことは、多くの場合最適ではないことを最初に示します。つまり、限られた高品質のデータは、繰り返すと急速にその有用性を失い、最終的には「目に見えない」が「低品質」のデータを含めることが必要になります。
この品質と量のトレードオフ ($\texttt{QQT}$) に対処するために、既存の文献では無視されている Web データの不均質な性質を説明するニューラル スケーリング則を導入します。
私たちのスケーリング則は、(i) Web データのさまざまな品質のサブセットの $\textit{differing}$ ‘有用性’ を特徴づけます。
(ii) 「n 回目」の繰り返しでデータ ポイントの効用がどのように減少するかを説明します。
(iii) 組み合わせたときのさまざまなデータ プールの相互作用を定式化し、複数のデータ プールで共同トレーニングを行わなくても、複数のデータ プールの組み合わせでモデルのパフォーマンスを推定できるようにします。
私たちの重要なメッセージは、データ キュレーション $\textit{できません}$ は、モデルがトレーニングされる合計計算量に依存しないということです。
当社のスケーリングの法則により、さまざまなコンピューティング予算で Datacomp で最高のパフォーマンスを達成するための最適なプールを厳選し、データ キュレーションのパレート フロンティアを切り開くことができます。
コードは https://github.com/locuslab/scaling_laws_data_filtering で入手できます。

要約(オリジナル)

Vision-language models (VLMs) are trained for thousands of GPU hours on carefully curated web datasets. In recent times, data curation has gained prominence with several works developing strategies to retain ‘high-quality’ subsets of ‘raw’ scraped data. For instance, the LAION public dataset retained only 10% of the total crawled data. However, these strategies are typically developed agnostic of the available compute for training. In this paper, we first demonstrate that making filtering decisions independent of training compute is often suboptimal: the limited high-quality data rapidly loses its utility when repeated, eventually requiring the inclusion of ‘unseen’ but ‘lower-quality’ data. To address this quality-quantity tradeoff ($\texttt{QQT}$), we introduce neural scaling laws that account for the non-homogeneous nature of web data, an angle ignored in existing literature. Our scaling laws (i) characterize the $\textit{differing}$ ‘utility’ of various quality subsets of web data; (ii) account for how utility diminishes for a data point at its ‘nth’ repetition; and (iii) formulate the mutual interaction of various data pools when combined, enabling the estimation of model performance on a combination of multiple data pools without ever jointly training on them. Our key message is that data curation $\textit{cannot}$ be agnostic of the total compute that a model will be trained for. Our scaling laws allow us to curate the best possible pool for achieving top performance on Datacomp at various compute budgets, carving out a pareto-frontier for data curation. Code is available at https://github.com/locuslab/scaling_laws_data_filtering.

arxiv情報

著者 Sachin Goyal,Pratyush Maini,Zachary C. Lipton,Aditi Raghunathan,J. Zico Kolter
発行日 2024-04-10 17:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク