An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces

要約

専門家の空間ではなく、敵の将来の行動の空間で学習者の事前が定義されている場合、専門家のアドバイスを含む予測としても知られている完全なフィードバックの下で、オンライン学習のためのトンプソンサンプリングの分析を開発します。
後悔を示して、学習者が先験的に期待した後悔に加えて、過剰な後悔と呼ぶ前の堅実さ型の用語を期待しています。
古典的な有限のエクスペルの設定では、これは最適なレートを回復します。
潜在的に不均一な数の専門家を持つ設定での実践的なオンライン学習への最初のステップとして、ベイズの最適化文献で広く使用されていた特定のガウスプロセスでトンプソンのサンプリングが$ \ mathcal {o}(\)があることを示します。
beta \ sqrt {t \ log(1+ \ lambda)})$ \ beta $ boundedに対してレート
$ \ lambda $ -lipschitz〜敵。

要約(オリジナル)

We develop an analysis of Thompson sampling for online learning under full feedback – also known as prediction with expert advice – where the learner’s prior is defined over the space of an adversary’s future actions, rather than the space of experts. We show regret decomposes into regret the learner expected a priori, plus a prior-robustness-type term we call excess regret. In the classical finite-expert setting, this recovers optimal rates. As an initial step towards practical online learning in settings with a potentially-uncountably-infinite number of experts, we show that Thompson sampling with a certain Gaussian process prior widely-used in the Bayesian optimization literature has a $\mathcal{O}(\beta\sqrt{T\log(1+\lambda)})$ rate against a $\beta$-bounded $\lambda$-Lipschitz~adversary.

arxiv情報

著者 Alexander Terenin,Jeffrey Negrea
発行日 2025-02-20 18:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.ST, stat.ML, stat.TH パーマリンク