要約
情報理論に基づくベイジアン最適化 (BO) 手法は、いくつかのタスクで最先端の結果を得ています。
これらの手法は、取得関数を計算するためにカルバック ライブラー (KL) 発散に大きく依存しています。
この研究では、アルファ エントロピー検索 (AES) と呼ばれる、BO 用の新しい情報ベースの取得関数クラスを導入します。
AES は、KL 発散を一般化する {\alpha}-divergence に基づいています。
反復的に、AES は、最適化問題のグローバル最大値の位置および関連値に関して、関連するターゲット値の依存性が最も高い評価点として次の評価点を選択します。
依存関係は、KL 発散の代わりに、{\alpha}-発散の観点から測定されます。
直観的には、これは大域的最大値に関する最も有益な点での目的関数の評価に有利です。
{\alpha}-divergence には自由パラメーター {\alpha} があり、これにより発散の動作、単一モードでの分布間の差異のトレードオフ評価、およびグローバルな差異の評価が決定されます。
したがって、{\alpha} の値が異なると、取得関数も異なります。
AES の取得には閉じた形式の表現がありません。
ただし、切り捨てられたガウス分布を使用した効率的で正確な近似を提案します。
実際には、{\alpha} の値は専門家が選択できますが、ここでは、{\alpha} の値の範囲を同時に考慮することによって得られる取得関数の組み合わせを使用することを提案します。
当社は BOTorch で AES の実装を提供し、ディープ ニューラル ネットワークのハイパーパラメーターの調整を含む合成実験、ベンチマーク実験、および実世界の実験の両方でそのパフォーマンスを評価します。
これらの実験は、AES のパフォーマンスが、JES、MES、PES などの他の情報ベースの取得機能と比較して競争力があることを示しています。
要約(オリジナル)
Bayesian optimization (BO) methods based on information theory have obtained state-of-the-art results in several tasks. These techniques heavily rely on the Kullback-Leibler (KL) divergence to compute the acquisition function. In this work, we introduce a novel information-based class of acquisition functions for BO called Alpha Entropy Search (AES). AES is based on the {\alpha}-divergence, that generalizes the KL divergence. Iteratively, AES selects the next evaluation point as the one whose associated target value has the highest level of the dependency with respect to the location and associated value of the global maximum of the optimization problem. Dependency is measured in terms of the {\alpha}-divergence, as an alternative to the KL divergence. Intuitively, this favors the evaluation of the objective function at the most informative points about the global maximum. The {\alpha}-divergence has a free parameter {\alpha}, which determines the behavior of the divergence, trading-off evaluating differences between distributions at a single mode, and evaluating differences globally. Therefore, different values of {\alpha} result in different acquisition functions. AES acquisition lacks a closed-form expression. However, we propose an efficient and accurate approximation using a truncated Gaussian distribution. In practice, the value of {\alpha} can be chosen by the practitioner, but here we suggest to use a combination of acquisition functions obtained by simultaneously considering a range of values of {\alpha}. We provide an implementation of AES in BOTorch and we evaluate its performance in both synthetic, benchmark and real-world experiments involving the tuning of the hyper-parameters of a deep neural network. These experiments show that the performance of AES is competitive with respect to other information-based acquisition functions such as JES, MES or PES.
arxiv情報
著者 | Daniel Fernández-Sánchez,Eduardo C. Garrido-Merchán,Daniel Hernández-Lobato |
発行日 | 2024-11-25 17:19:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google