Scaling laws for learning with real and surrogate data

要約

高品質のデータを大量に収集することは、法外に高価であるか非現実的であり、機械学習のボトルネックになる可能性があります。
代わりに、ターゲット分布からの $n$ データポイントの小さなセットを、よりアクセス可能なソースからのデータで強化することもできます。
さまざまな状況下で収集されたデータ、または生成モデルによって合成されたデータ。
このようなデータを「サロゲート データ」と呼びます。
サロゲート データをトレーニングに統合するための加重経験的リスク最小化 (ERM) アプローチを導入します。
私たちはこの方法をいくつかの古典的な統計モデルに基づいて数学的に分析し、さまざまなドメインのデータセットで結果を経験的に検証します。
私たちの主な発見は次のとおりです: $(i)$ サロゲート データを統合すると、元の分布でのテスト エラーを大幅に減らすことができます。
驚くべきことに、これは、サロゲート データが元のデータと無関係な場合でも発生する可能性があります。
この動作は古典的なスタインのパラドックスにまで遡ります。
$(ii)$ サロゲート データのメリットを享受するには、最適に重み付けされた ERM を使用することが重要です。
$(iii)$ 実際のデータと代理データの混合物で訓練されたモデルのテスト誤差は、スケーリング則によって近似的に記述されます。
このスケーリング則を使用して、最適な重み付けスキームを予測し、追加する代理データの量を選択できます。

要約(オリジナル)

Collecting large quantities of high-quality data can be prohibitively expensive or impractical, and a bottleneck in machine learning. One may instead augment a small set of $n$ data points from the target distribution with data from more accessible sources, e.g. data collected under different circumstances or synthesized by generative models. We refer to such data as `surrogate data.’ We introduce a weighted empirical risk minimization (ERM) approach for integrating surrogate data into training. We analyze mathematically this method under several classical statistical models, and validate our findings empirically on datasets from different domains. Our main findings are: $(i)$ Integrating surrogate data can significantly reduce the test error on the original distribution. Surprisingly, this can happen even when the surrogate data is unrelated to the original ones. We trace back this behavior to the classical Stein’s paradox. $(ii)$ In order to reap the benefit of surrogate data, it is crucial to use optimally weighted ERM. $(iii)$ The test error of models trained on mixtures of real and surrogate data is approximately described by a scaling law. This scaling law can be used to predict the optimal weighting scheme, and to choose the amount of surrogate data to add.

arxiv情報

著者 Ayush Jain,Andrea Montanari,Eren Sasoglu
発行日 2024-06-28 15:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク