Scaling Laws for Hyperparameter Optimization

要約

ハイパーパラメータの最適化は、最高のパフォーマンスを達成するために選択したアルゴリズムのハイパーパラメータを調整することに焦点を当てた機械学習の重要なサブフィールドです。
最近、ハイパーパラメータ最適化の問題に取り組む手法が次々と登場していますが、ほとんどの手法はベイズ最適化の学習曲線の支配的なべき乗則の性質を利用していません。
この研究では、べき乗則スケーリング パターンに従う予測を生成するように条件付けされたニューラル ネットワーク モデルのアンサンブルである Deep Power Laws (DPL) を提案します。
私たちの方法では、グレーボックス評価を利用して、どの構成を一時停止し、段階的にトレーニングするかを動的に決定します。
59 の多様なタスクをカバーする表形式、画像、NLP データセットに関連する 3 つのベンチマークで、当社の手法を 7 つの最先端の競合他社と比較します。
当社の手法は、すべての競合他社と比較して常に最高の結果を得ることで、すべてのベンチマークにわたって最高の結果を達成します。

要約(オリジナル)

Hyperparameter optimization is an important subfield of machine learning that focuses on tuning the hyperparameters of a chosen algorithm to achieve peak performance. Recently, there has been a stream of methods that tackle the issue of hyperparameter optimization, however, most of the methods do not exploit the dominant power law nature of learning curves for Bayesian optimization. In this work, we propose Deep Power Laws (DPL), an ensemble of neural network models conditioned to yield predictions that follow a power-law scaling pattern. Our method dynamically decides which configurations to pause and train incrementally by making use of gray-box evaluations. We compare our method against 7 state-of-the-art competitors on 3 benchmarks related to tabular, image, and NLP datasets covering 59 diverse tasks. Our method achieves the best results across all benchmarks by obtaining the best any-time results compared to all competitors.

arxiv情報

著者 Arlind Kadra,Maciej Janowski,Martin Wistuba,Josif Grabocka
発行日 2023-10-25 16:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク