On the Sublinear Regret of GP-UCB

要約

カーネル化されたバンディット問題では、学習者は、連続して選択された点でノイズのある評価のみを与えて、再現カーネル ヒルベルト空間にある関数の最適値を連続的に計算することを目的とします。
特に、学習者は、行われた選択の準最適性の尺度である後悔を最小限に抑えることを目指します。
おそらく最も人気のあるアルゴリズムは、ガウス過程上限信頼限界 (GP-UCB) アルゴリズムです。これには、未知の関数の単純な線形推定量に基づいて動作することが含まれます。
GP-UCB の人気にもかかわらず、GP-UCB の既存の分析では次善の後悔率が得られており、Mat\’ern カーネルなどの一般的に使用される多くのカーネルでは線形性が不十分です。
これにより、長年の未解決の疑問が生じてきました。GP-UCB の既存のリグレス分析は厳しいのでしょうか、それとも、より高度な分析手法を使用することで境界を改善できるのでしょうか?
この研究では、この未解決の疑問を解決し、GP-UCB がほぼ最適な後悔を享受していることを示します。
特に、我々の結果は Mat\’ern カーネルのサブリニア率をもたらし、最先端の分析よりも改善し、Vakili らによって提起された COLT 未解決の問題を部分的に解決しました。
私たちの改善は、基礎となるカーネル $k$ の滑らかさに比例してカーネル リッジ推定量を正規化するという重要な技術的貢献に依存しています。
この重要なアイデアを、あまり見落とされがちな集中結果とともに適用すると、分離可能なヒルベルト空間 (これについては独立した単純化された導出が提供されます) が得られ、GP-UCB アルゴリズムのより厳密な分析を提供できます。

要約(オリジナル)

In the kernelized bandit problem, a learner aims to sequentially compute the optimum of a function lying in a reproducing kernel Hilbert space given only noisy evaluations at sequentially chosen points. In particular, the learner aims to minimize regret, which is a measure of the suboptimality of the choices made. Arguably the most popular algorithm is the Gaussian Process Upper Confidence Bound (GP-UCB) algorithm, which involves acting based on a simple linear estimator of the unknown function. Despite its popularity, existing analyses of GP-UCB give a suboptimal regret rate, which fails to be sublinear for many commonly used kernels such as the Mat\’ern kernel. This has led to a longstanding open question: are existing regret analyses for GP-UCB tight, or can bounds be improved by using more sophisticated analytical techniques? In this work, we resolve this open question and show that GP-UCB enjoys nearly optimal regret. In particular, our results yield sublinear regret rates for the Mat\’ern kernel, improving over the state-of-the-art analyses and partially resolving a COLT open problem posed by Vakili et al. Our improvements rely on a key technical contribution — regularizing kernel ridge estimators in proportion to the smoothness of the underlying kernel $k$. Applying this key idea together with a largely overlooked concentration result in separable Hilbert spaces (for which we provide an independent, simplified derivation), we are able to provide a tighter analysis of the GP-UCB algorithm.

arxiv情報

著者 Justin Whitehouse,Zhiwei Steven Wu,Aaditya Ramdas
発行日 2023-08-14 17:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク