要約
ランジュバン モンテカルロによる近似トンプソン サンプリングは、ガウス事後サンプリングからより一般的な滑らかな事後サンプリングまで範囲を広げます。
ただし、高精度が要求される場合には、高次元の問題でスケーラビリティの問題が依然として発生します。
これに対処するために、不足減衰ランジュバン モンテカルロを利用した近似トンプソン サンプリング戦略を提案します。ランジュバン モンテカルロは、高次元事後シミュレーションの頼りになる主力モデルです。
標準的な平滑性と対数凹面条件に基づいて、特定のポテンシャル関数を使用して加速された事後濃縮とサンプリングを研究します。
この設計により、$\mathcal{\tilde O}(d)$ から $\mathcal{\tilde O}(\sqrt{d})$ までの対数リグレスを実現するためのサンプルの複雑さが改善されます。
私たちのアルゴリズムのスケーラビリティとロバスト性も、高次元バンディット問題での合成実験を通じて経験的に検証されています。
要約(オリジナル)
Approximate Thompson sampling with Langevin Monte Carlo broadens its reach from Gaussian posterior sampling to encompass more general smooth posteriors. However, it still encounters scalability issues in high-dimensional problems when demanding high accuracy. To address this, we propose an approximate Thompson sampling strategy, utilizing underdamped Langevin Monte Carlo, where the latter is the go-to workhorse for simulations of high-dimensional posteriors. Based on the standard smoothness and log-concavity conditions, we study the accelerated posterior concentration and sampling using a specific potential function. This design improves the sample complexity for realizing logarithmic regrets from $\mathcal{\tilde O}(d)$ to $\mathcal{\tilde O}(\sqrt{d})$. The scalability and robustness of our algorithm are also empirically validated through synthetic experiments in high-dimensional bandit problems.
arxiv情報
著者 | Haoyang Zheng,Wei Deng,Christian Moya,Guang Lin |
発行日 | 2024-02-19 16:23:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google