Optimal cross-learning for contextual bandits with unknown context distributions


我々は、Balseiroらの“交差学習(cross-learning)”設定において、文脈バンディットアルゴリズムを設計する問題を考察する。我々は特に、損失が敵対的に選択され、コンテキストが未知の分布からi.i.d.サンプリングされる設定を考える。この設定において、コンテクストの数に依存せず、$widetilde{O}( \sqrt{TK})$ というほぼタイトな(対数因数までの)後悔境界を持つ効率的なアルゴリズムを提供することで、Balseiroらの未解決問題を解決する。結果として、我々は、(未知の価値分布の下での)第一価格オークションにおける入札の学習と、確率的行動集合を持つスリーピングバンディットの問題に対して、初めてほぼタイトな後悔境界を得る。 本アルゴリズムの核となるのは、未知分布の推定とアルゴリズムによる行動との間の相関を取り除くように、複数のエポックにわたって学習アルゴリズムの実行を調整するための新しい手法である。この技法は、未知の文脈分布の推定を含む他の学習問題にも応用できる。


We consider the problem of designing contextual bandit algorithms in the “cross-learning” setting of Balseiro et al., where the learner observes the loss for the action they play in all possible contexts, not just the context of the current round. We specifically consider the setting where losses are chosen adversarially and contexts are sampled i.i.d. from an unknown distribution. In this setting, we resolve an open problem of Balseiro et al. by providing an efficient algorithm with a nearly tight (up to logarithmic factors) regret bound of $\widetilde{O}(\sqrt{TK})$, independent of the number of contexts. As a consequence, we obtain the first nearly tight regret bounds for the problems of learning to bid in first-price auctions (under unknown value distributions) and sleeping bandits with a stochastic action set. At the core of our algorithm is a novel technique for coordinating the execution of a learning algorithm over multiple epochs in such a way to remove correlations between estimation of the unknown distribution and the actions played by the algorithm. This technique may be of independent interest for other learning problems involving estimation of an unknown context distribution.


著者 Jon Schneider,Julian Zimmert
発行日 2024-01-03 18:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク