要約
自動機械学習(AutoML)は、データ上で機械学習(ML)モデルを自動的に構築する。表データ用の新しいAutoMLフレームワークを評価するための事実上の標準は、AutoMLベンチマーク(AMLB)である。AMLBでは、104のタスクに対して1時間と4時間の時間予算を使ってAutoMLフレームワークを評価することが提案されている。我々は、モデルを高頻度で再学習する必要がある場合などの実用的な価値と、AMLBをより利用しやすくするために、より短い時間制約をベンチマークに考慮すべきであると主張する。本研究では、ベンチマークで使用される全体的な計算量を削減するための2つの方法、すなわち、より小さな時間制約と早期停止の使用について検討する。異なる時間制約を持つ104のタスクに対して11のAutoMLフレームワークの評価を行い、AutoMLフレームワークの相対的なランキングは時間制約間でほぼ一貫しているが、早期停止を使用することでモデルの性能がより多様になることを発見した。
要約(オリジナル)
Automated Machine Learning (AutoML) automatically builds machine learning (ML) models on data. The de facto standard for evaluating new AutoML frameworks for tabular data is the AutoML Benchmark (AMLB). AMLB proposed to evaluate AutoML frameworks using 1- and 4-hour time budgets across 104 tasks. We argue that shorter time constraints should be considered for the benchmark because of their practical value, such as when models need to be retrained with high frequency, and to make AMLB more accessible. This work considers two ways in which to reduce the overall computation used in the benchmark: smaller time constraints and the use of early stopping. We conduct evaluations of 11 AutoML frameworks on 104 tasks with different time constraints and find the relative ranking of AutoML frameworks is fairly consistent across time constraints, but that using early-stopping leads to a greater variety in model performance.
arxiv情報
著者 | Israel Campero Jurado,Pieter Gijsbers,Joaquin Vanschoren |
発行日 | 2025-04-04 15:38:37+00:00 |
arxivサイト | arxiv_id(pdf) |