How Much More Data Do I Need? Estimating Requirements for Downstream Tasks

要約

小さなトレーニングデータセットと学習アルゴリズムを考えると、ターゲットの検証またはテストのパフォーマンスに到達するには、どれだけ多くのデータが必要ですか?
この質問は、自動運転や医療画像など、データの収集に費用と時間がかかるアプリケーションで非常に重要です。
データ要件を過大評価または過小評価すると、かなりのコストが発生しますが、適切な予算で回避できます。
ニューラルスケーリング則に関する以前の研究は、べき乗則関数が検証パフォーマンス曲線に適合し、それをより大きなデータセットサイズに外挿できることを示唆しています。
これは、目標のパフォーマンスを満たすために必要なデータセットサイズを見積もるという、より困難なダウンストリームタスクにすぐには変換されないことがわかります。
この作業では、幅広いクラスのコンピュータービジョンタスクを検討し、べき乗則関数を一般化してデータ要件のより良い推定を可能にする関数のファミリーを体系的に調査します。
最後に、調整された補正係数を組み込み、複数のラウンドにわたって収集すると、データ推定器のパフォーマンスが大幅に向上することを示します。
実践者は、ガイドラインを使用して、機械学習システムのデータ要件を正確に見積もり、開発時間とデータ取得コストの両方を節約できます。

要約(オリジナル)

Given a small training data set and a learning algorithm, how much more data is necessary to reach a target validation or test performance? This question is of critical importance in applications such as autonomous driving or medical imaging where collecting data is expensive and time-consuming. Overestimating or underestimating data requirements incurs substantial costs that could be avoided with an adequate budget. Prior work on neural scaling laws suggest that the power-law function can fit the validation performance curve and extrapolate it to larger data set sizes. We find that this does not immediately translate to the more difficult downstream task of estimating the required data set size to meet a target performance. In this work, we consider a broad class of computer vision tasks and systematically investigate a family of functions that generalize the power-law function to allow for better estimation of data requirements. Finally, we show that incorporating a tuned correction factor and collecting over multiple rounds significantly improves the performance of the data estimators. Using our guidelines, practitioners can accurately estimate data requirements of machine learning systems to gain savings in both development time and data acquisition costs.

arxiv情報

著者 Rafid Mahmood,James Lucas,David Acuna,Daiqing Li,Jonah Philion,Jose M. Alvarez,Zhiding Yu,Sanja Fidler,Marc T. Law
発行日 2022-07-13 15:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク