In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization

要約

深層学習に関連する計算コストの増加により、ブラックボックス ベイジアン最適化 (BO) に強く依存する自動ハイパーパラメータ最適化手法は限界に直面しています。
凍結解凍 BO は、希少なリソースをさまざまな構成に段階的に戦略的に割り当てる、有望なグレーボックスの代替手段を提供します。
ただし、このアプローチに固有のサロゲート モデルの頻繁な更新は、オンラインでニューラル ネットワーク サロゲートの再トレーニングまたは微調整を必要とし、オーバーヘッド、不安定性、およびハイパーハイパーパラメーターを導入するため、既存の方法に課題をもたらします。
この研究では、凍結融解スタイル BO の新しい代替手段である FT-PFN を提案します。
FT-PFN は、トランスフォーマーのインコンテキスト学習機能を活用して、単一の順方向パスで効率的かつ確実にベイジアン学習曲線外挿を行う事前データ適合ネットワーク (PFN) です。
3 つのベンチマーク スイートにわたる実証分析では、FT-PFN による予測がより正確で、以前の研究で使用されたディープ ガウス プロセスおよびディープ アンサンブル サロゲートの予測よりも 10 ~ 100 倍高速であることが示されています。
さらに、新しい取得メカニズム (MFPI ランダム) と組み合わせると、結果として生じるコンテキスト凍結融解 BO メソッド (ifBO) が、同じ 3 つのディープ ファミリーで新しい最先端のパフォーマンスを生み出すことを示します。
以前の研究で考慮された HPO ベンチマークの学習。

要約(オリジナル)

With the increasing computational costs associated with deep learning, automated hyperparameter optimization methods, strongly relying on black-box Bayesian optimization (BO), face limitations. Freeze-thaw BO offers a promising grey-box alternative, strategically allocating scarce resources incrementally to different configurations. However, the frequent surrogate model updates inherent to this approach pose challenges for existing methods, requiring retraining or fine-tuning their neural network surrogates online, introducing overhead, instability, and hyper-hyperparameters. In this work, we propose FT-PFN, a novel surrogate for Freeze-thaw style BO. FT-PFN is a prior-data fitted network (PFN) that leverages the transformers’ in-context learning ability to efficiently and reliably do Bayesian learning curve extrapolation in a single forward pass. Our empirical analysis across three benchmark suites shows that the predictions made by FT-PFN are more accurate and 10-100 times faster than those of the deep Gaussian process and deep ensemble surrogates used in previous work. Furthermore, we show that, when combined with our novel acquisition mechanism (MFPI-random), the resulting in-context freeze-thaw BO method (ifBO), yields new state-of-the-art performance in the same three families of deep learning HPO benchmarks considered in prior work.

arxiv情報

著者 Herilalaina Rakotoarison,Steven Adriaensen,Neeratyoy Mallik,Samir Garibov,Edward Bergman,Frank Hutter
発行日 2024-04-25 17:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク