A Study of Bayesian Neural Network Surrogates for Bayesian Optimization

要約

ベイジアン最適化は、クエリにコストがかかる目的関数を最適化するための非常に効率的なアプローチです。
これらの目的は通常、最適化が容易で正確な推論をサポートするガウス過程 (GP) サロゲート モデルによって表されます。
標準 GP サロゲートはベイズ最適化において十分に確立されていますが、ベイジアン ニューラル ネットワーク (BNN) は最近実用的な関数近似器となり、非定常性を自然に処理したり、高次元データの表現を学習したりできるなど、標準 GP よりも多くの利点を備えています。

この論文では、最適化のための標準 GP サロゲートの代替として BNN を研究します。
高品質のハミルトニアン モンテカルロ、低コストの確率的 MCMC、ディープ アンサンブルなどのヒューリスティックなど、有限幅 BNN のさまざまな近似推論手順を検討します。
また、無限幅の BNN やディープ カーネル学習などの部分確率モデルも考慮します。
この代理モデルのコレクションを、さまざまな次元、目的の数、非定常性、離散入力と連続入力を伴う多様な問題に対して評価します。
(i) 手法のランキングは問題に大きく依存しており、調整された帰納的バイアスの必要性を示唆しています。
(ii) HMC は、完全に確率的な BNN に対して最も成功した近似推論手順です。
(iii) ディープカーネル学習は比較的競争力があるため、完全な確率論は不要である可能性があります。
(iv) 無限幅 BNN は、特に高次元で特に有望です。

要約(オリジナル)

Bayesian optimization is a highly efficient approach to optimizing objective functions which are expensive to query. These objectives are typically represented by Gaussian process (GP) surrogate models which are easy to optimize and support exact inference. While standard GP surrogates have been well-established in Bayesian optimization, Bayesian neural networks (BNNs) have recently become practical function approximators, with many benefits over standard GPs such as the ability to naturally handle non-stationarity and learn representations for high-dimensional data. In this paper, we study BNNs as alternatives to standard GP surrogates for optimization. We consider a variety of approximate inference procedures for finite-width BNNs, including high-quality Hamiltonian Monte Carlo, low-cost stochastic MCMC, and heuristics such as deep ensembles. We also consider infinite-width BNNs and partially stochastic models such as deep kernel learning. We evaluate this collection of surrogate models on diverse problems with varying dimensionality, number of objectives, non-stationarity, and discrete and continuous inputs. We find: (i) the ranking of methods is highly problem dependent, suggesting the need for tailored inductive biases; (ii) HMC is the most successful approximate inference procedure for fully stochastic BNNs; (iii) full stochasticity may be unnecessary as deep kernel learning is relatively competitive; (iv) infinite-width BNNs are particularly promising, especially in high dimensions.

arxiv情報

著者 Yucen Lily Li,Tim G. J. Rudner,Andrew Gordon Wilson
発行日 2023-05-31 17:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク