Sparse Nonparametric Contextual Bandits

要約

このペーパーでは、関連する機能を同時に学習し、文脈上の盗賊の問題の後悔を最小限に抑えるという問題を研究します。
スパースノンパラメトリックコンテキストバンディットと呼ばれる新しいクラスのコンテキストバンディット問題を導入および分析します。このendice候補機能に属する小さな未知の機能セットの線形スパンには、予想される報酬関数があります。
スパースの2つの概念を検討します。この概念では、候補機能のセットが可算または数え切れないほどです。
私たちの貢献は2つあります。
まず、Minimaxの後悔の下限を提供します。これは、この設定では、アクションの数に対する多項式依存性が一般的に避けられないことを示しています。
第二に、心地よいトンプソンサンプリングアルゴリズムのバリアントは、地平線の対数因子に下線を一致させる後悔の境界を享受し、候補機能の有効数に対数依存性を持つことを示します。
結果をカーネル化された神経文脈の盗賊に適用すると、地平線がスパース性とアクションの数に比べて十分に大きい限り、スパースは常により良い後悔の境界を可能にすることがわかります。

要約(オリジナル)

This paper studies the problem of simultaneously learning relevant features and minimising regret in contextual bandit problems. We introduce and analyse a new class of contextual bandit problems, called sparse nonparametric contextual bandits, in which the expected reward function lies in the linear span of a small unknown set of features that belongs to a known infinite set of candidate features. We consider two notions of sparsity, for which the set of candidate features is either countable or uncountable. Our contribution is two-fold. First, we provide lower bounds on the minimax regret, which show that polynomial dependence on the number of actions is generally unavoidable in this setting. Second, we show that a variant of the Feel-Good Thompson Sampling algorithm enjoys regret bounds that match our lower bounds up to logarithmic factors of the horizon, and have logarithmic dependence on the effective number of candidate features. When we apply our results to kernelised and neural contextual bandits, we find that sparsity always enables better regret bounds, as long as the horizon is large enough relative to the sparsity and the number of actions.

arxiv情報

著者 Hamish Flynn,Julia Olkhovskaya,Paul Rognon-Vael
発行日 2025-03-20 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク