要約
学習曲線は、一定量のトレーニング データが与えられた場合に機械学習モデルのパフォーマンスがどのように向上するかを示す尺度です。
さまざまなアプリケーションやモデルにわたって、学習曲線は大部分がべき乗則の動作に従うことが観察されました。
これにより、特定のタスクに対するさまざまなモデルのパフォーマンスがある程度予測可能になり、当面の問題に対して考えられるモデルとハイパーパラメーターの空間を探索する実践者にとってトレーニング時間を短縮する機会が生まれます。
データの小さなサブセットでのトレーニングからモデルの学習曲線を推定することで、完全なデータセットでのトレーニングでは最適なモデルのみを考慮する必要があります。
ただし、サブセット サイズを選択する方法と、推定値を取得するためにサブセット サイズでモデルをサンプリングする頻度は研究されていません。
全体的なトレーニング時間を短縮することが目標であることを考えると、時間効率の良い方法でパフォーマンスをサンプリングしながら、正確な学習曲線の推定につながる戦略が必要となります。
本稿では、これらの戦略の枠組みを策定し、いくつかの戦略を提案します。
さらに、学習曲線のシミュレーションと、画像分類タスク用の一般的なデータセットとモデルを使用した実験の戦略を評価します。
要約(オリジナル)
Learning curves are a measure for how the performance of machine learning models improves given a certain volume of training data. Over a wide variety of applications and models it was observed that learning curves follow — to a large extent — a power law behavior. This makes the performance of different models for a given task somewhat predictable and opens the opportunity to reduce the training time for practitioners, who are exploring the space of possible models and hyperparameters for the problem at hand. By estimating the learning curve of a model from training on small subsets of data only the best models need to be considered for training on the full dataset. How to choose subset sizes and how often to sample models on these to obtain estimates is however not researched. Given that the goal is to reduce overall training time strategies are needed that sample the performance in a time-efficient way and yet leads to accurate learning curve estimates. In this paper we formulate the framework for these strategies and propose several strategies. Further we evaluate the strategies for simulated learning curves and in experiments with popular datasets and models for image classification tasks.
arxiv情報
著者 | Laura Didyk,Brayden Yarish,Michael A. Beck,Christopher P. Bidinosti,Christopher J. Henry |
発行日 | 2023-10-12 16:28:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google