Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

要約

従来、データの選択は、見込みのあるソースからのすべてのサンプルが機械学習開発者に完全に公開される環境で研究されてきました。
ただし、実際のデータ交換シナリオでは、データ プロバイダーは、取得の決定が行われる前にサンプルの限られたサブセットのみを公開することがよくあります。
最近では、限られた利用可能なサンプルを使用して、あらゆるサイズおよびデータ ソース構成でモデルのパフォーマンスを予測するスケーリング則を適合させる取り組みが行われています。
ただし、これらのスケーリング関数はブラックボックスであり、適合させるのに計算コストがかかり、過剰適合の影響を非常に受けやすい、またはデータ選択の最適化が困難です。
このペーパーでは、モデルのパフォーマンスを予測し、予想されるデータ ソースの部分サンプルに基づいてデータ選択の決定をサポートする、 と呼ばれるフレームワークを提案します。
私たちのアプローチは、新しい *2 段階* のパフォーマンス推論プロセスを導入することで、既存の研究とは一線を画しています。
最初の段階では、最適転送距離を利用して、公開されているデータ サイズの範囲内の任意のデータ混合比に対するモデルのパフォーマンスを予測します。
第 2 段階では、ニューラル スケーリング則にヒントを得た新しいパラメーターフリー マッピング手法に基づいて、より大きな未公開のデータ サイズに対するパフォーマンスを推定します。
さらに、予測されるモデルのパフォーマンスに基づいてデータ ソースを選択するための効率的な勾配ベースの方法を導き出します。
さまざまなアプリケーションでの評価により、 がパフォーマンス推論の精度とパフォーマンス予測子の構築に関連する計算コストの両方の観点から、既存のパフォーマンス スケーリング アプローチを大幅に改善することが実証されました。
また、 は、他のさまざまな既製ソリューションと比較して、データ選択の有効性において大幅に優れています。

要約(オリジナル)

Traditionally, data selection has been studied in settings where all samples from prospective sources are fully revealed to a machine learning developer. However, in practical data exchange scenarios, data providers often reveal only a limited subset of samples before an acquisition decision is made. Recently, there have been efforts to fit scaling laws that predict model performance at any size and data source composition using the limited available samples. However, these scaling functions are black-box, computationally expensive to fit, highly susceptible to overfitting, or/and difficult to optimize for data selection. This paper proposes a framework called , which predicts model performance and supports data selection decisions based on partial samples of prospective data sources. Our approach distinguishes itself from existing work by introducing a novel *two-stage* performance inference process. In the first stage, we leverage the Optimal Transport distance to predict the model’s performance for any data mixture ratio within the range of disclosed data sizes. In the second stage, we extrapolate the performance to larger undisclosed data sizes based on a novel parameter-free mapping technique inspired by neural scaling laws. We further derive an efficient gradient-based method to select data sources based on the projected model performance. Evaluation over a diverse range of applications demonstrates that significantly improves existing performance scaling approaches in terms of both the accuracy of performance inference and the computation costs associated with constructing the performance predictor. Also, outperforms by a wide margin in data selection effectiveness compared to a range of other off-the-shelf solutions.

arxiv情報

著者 Feiyang Kang,Hoang Anh Just,Anit Kumar Sahu,Ruoxi Jia
発行日 2023-07-05 17:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CV, cs.LG パーマリンク