Bayesian Kernelized Tensor Factorization as Surrogate for Bayesian Optimization

要約

ベイジアン最適化 (BO) では、主にガウス過程 (GP) を主要な代理モデルとして使用し、主に自動関連性判定機能を備えた二乗指数カーネル (SE-ARD) などの単純な定常的で分離可能なカーネル関数を使用します。
ただし、このような単純なカーネル仕様では、非定常、非分離、マルチモーダルなどの複雑な特徴を持つ関数を学習するには不十分です。
ローカル GP を使用してこのような関数を近似するには、高次元の設定ではもちろんのこと、低次元空間であっても多数のサンプルが必要です。
この論文では、$D$ 次元のデカルト積空間における BO の新しいサロゲート モデルとして、ベイジアン カーネル化テンソル因数分解 (BKTF) を使用することを提案します。
私たちの重要なアイデアは、完全なベイジアンの低ランク テンソル CP 分解を使用して、基礎となる $D$ 次元ソリッドを近似することです。この分解では、各次元の潜在基底関数に GP 事前分布を配置して、局所的な一貫性と滑らかさをエンコードします。
この定式化を使用すると、各サンプルからの情報を隣接するサンプルだけでなく、次元を超えて共有することもできます。
BKTF には分析事後分布がなくなりましたが、マルコフ連鎖モンテカルロ (MCMC) を通じて事後分布を効率的に近似し、予測と完全な不確実性定量化 (UQ) を得ることができます。
私たちは、標準的な BO テスト関数と機械学習のハイパーパラメーター調整問題の両方について数値実験を実施しました。その結果、BKTF は、特に初期サンプル サイズと予算が厳しく制限されている場合に、UQ を使用して複雑な関数を特徴付けるための柔軟で非常に効果的なアプローチを提供することを示しています。

要約(オリジナル)

Bayesian optimization (BO) primarily uses Gaussian processes (GP) as the key surrogate model, mostly with a simple stationary and separable kernel function such as the squared-exponential kernel with automatic relevance determination (SE-ARD). However, such simple kernel specifications are deficient in learning functions with complex features, such as being nonstationary, nonseparable, and multimodal. Approximating such functions using a local GP, even in a low-dimensional space, requires a large number of samples, not to mention in a high-dimensional setting. In this paper, we propose to use Bayesian Kernelized Tensor Factorization (BKTF) — as a new surrogate model — for BO in a $D$-dimensional Cartesian product space. Our key idea is to approximate the underlying $D$-dimensional solid with a fully Bayesian low-rank tensor CP decomposition, in which we place GP priors on the latent basis functions for each dimension to encode local consistency and smoothness. With this formulation, information from each sample can be shared not only with neighbors but also across dimensions. Although BKTF no longer has an analytical posterior, we can still efficiently approximate the posterior distribution through Markov chain Monte Carlo (MCMC) and obtain prediction and full uncertainty quantification (UQ). We conduct numerical experiments on both standard BO test functions and machine learning hyperparameter tuning problems, and our results show that BKTF offers a flexible and highly effective approach for characterizing complex functions with UQ, especially in cases where the initial sample size and budget are severely limited.

arxiv情報

著者 Mengying Lei,Lijun Sun
発行日 2023-05-26 15:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク