要約
従来、データの選択は、見込みのあるソースからのすべてのサンプルが機械学習開発者に完全に公開される環境で研究されてきました。
ただし、実際のデータ交換シナリオでは、データ プロバイダーは、取得の決定が行われる前にサンプルの限られたサブセットのみを公開することがよくあります。
最近では、限られた利用可能なサンプルを使用して、あらゆるサイズおよびデータ ソース構成でモデルのパフォーマンスを予測するスケーリング則を適合させる取り組みが行われています。
ただし、これらのスケーリング関数はブラックボックスであり、適合させるのに計算コストがかかり、過剰適合の影響を非常に受けやすい、またはデータ選択の最適化が困難です。
このペーパーでは、モデルのパフォーマンスを予測し、予想されるデータ ソースの部分サンプルに基づいてデータ選択の決定をサポートする、
私たちのアプローチは、新しい *2 段階* のパフォーマンス推論プロセスを導入することで、既存の研究とは一線を画しています。
最初の段階では、最適転送距離を利用して、公開されているデータ サイズの範囲内の任意のデータ混合比に対するモデルのパフォーマンスを予測します。
第 2 段階では、ニューラル スケーリング則にヒントを得た新しいパラメーターフリー マッピング手法に基づいて、より大きな未公開のデータ サイズに対するパフォーマンスを推定します。
さらに、予測されるモデルのパフォーマンスに基づいてデータ ソースを選択するための効率的な勾配ベースの方法を導き出します。
さまざまなアプリケーションでの評価により、
また、
要約(オリジナル)
Traditionally, data selection has been studied in settings where all samples from prospective sources are fully revealed to a machine learning developer. However, in practical data exchange scenarios, data providers often reveal only a limited subset of samples before an acquisition decision is made. Recently, there have been efforts to fit scaling laws that predict model performance at any size and data source composition using the limited available samples. However, these scaling functions are black-box, computationally expensive to fit, highly susceptible to overfitting, or/and difficult to optimize for data selection. This paper proposes a framework called
arxiv情報
著者 | Feiyang Kang,Hoang Anh Just,Anit Kumar Sahu,Ruoxi Jia |
発行日 | 2023-07-05 17:33:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google