The Unreasonable Effectiveness Of Early Discarding After One Epoch In Neural Network Hyperparameter Optimization

要約

ディープラーニングで高いパフォーマンスを達成するには、ハイパーパラメータ最適化 (HPO) が不可欠です。
ニューラル ネットワークの評価にはコストがかかるため、このプロセスには通常時間がかかります。
早期破棄手法では、経験的な学習曲線を観察し、候補者の競争力の欠如が明らかになったらすぐにニューラル ネットワークのトレーニングをキャンセルすることで、見込みのない候補者に与えられるリソースを制限します。
20 年にわたる研究にもかかわらず、破棄の積極性と予測パフォーマンスの損失との間のトレードオフについてはほとんど理解されていません。
私たちの論文では、連続半減法や学習曲線外挿など、一般的に使用されるいくつかの破棄手法について、このトレードオフを研究しています。
私たちの驚くべき発見は、一定数のトレーニングエポックの後に破棄するという単純な戦略と比較して、一般的に使用されているこれらの手法が付加価値を最小限またはまったく提供しないということです。
選択されるエポック数は、主に利用可能なコンピューティング バジェットによって決まります。
我々はこのアプローチを i-Epoch (i はニューラル ネットワークがトレーニングされるエポックの定数) と呼び、(消費されたトレーニング エポックと予測パフォーマンスにおける) パレート フロントがどのように補完するかを比較することによって、早期破棄手法の品質を評価することを提案します。
i-Epoch のパレートフロント。

要約(オリジナル)

To reach high performance with deep learning, hyperparameter optimization (HPO) is essential. This process is usually time-consuming due to costly evaluations of neural networks. Early discarding techniques limit the resources granted to unpromising candidates by observing the empirical learning curves and canceling neural network training as soon as the lack of competitiveness of a candidate becomes evident. Despite two decades of research, little is understood about the trade-off between the aggressiveness of discarding and the loss of predictive performance. Our paper studies this trade-off for several commonly used discarding techniques such as successive halving and learning curve extrapolation. Our surprising finding is that these commonly used techniques offer minimal to no added value compared to the simple strategy of discarding after a constant number of epochs of training. The chosen number of epochs depends mostly on the available compute budget. We call this approach i-Epoch (i being the constant number of epochs with which neural networks are trained) and suggest to assess the quality of early discarding techniques by comparing how their Pareto-Front (in consumed training epochs and predictive performance) complement the Pareto-Front of i-Epoch.

arxiv情報

著者 Romain Egele,Felix Mohr,Tom Viering,Prasanna Balaprakash
発行日 2024-04-05 14:08:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク