Batched Nonparametric Contextual Bandits

要約

バッチ制約の下でノンパラメトリックコンテキストバンディットを研究します。各アクションの予想される報酬は、共変量のスムーズな機能としてモデル化され、各バッチの観測値の最後にポリシーの更新が行われます。
この設定に対するミニマックスの後悔の下限を確立し、最適な後悔を達成する新しいバッチ学習アルゴリズムを提案します(対数要因まで)。
本質的に、私たちの手順は、共変量空間をより小さなビンに動的に分割し、幅をバッチサイズに注意深く整列させます。
私たちの理論的結果は、ノンパラメトリックの文脈的盗賊の場合、ほぼ一定のポリシー更新が完全にオンラインの設定で最適な後悔を達成できることを示唆しています。

要約(オリジナル)

We study nonparametric contextual bandits under batch constraints, where the expected reward for each action is modeled as a smooth function of covariates, and the policy updates are made at the end of each batch of observations. We establish a minimax regret lower bound for this setting and propose a novel batch learning algorithm that achieves the optimal regret (up to logarithmic factors). In essence, our procedure dynamically splits the covariate space into smaller bins, carefully aligning their widths with the batch size. Our theoretical results suggest that for nonparametric contextual bandits, a nearly constant number of policy updates can attain optimal regret in the fully online setting.

arxiv情報

著者 Rong Jiang,Cong Ma
発行日 2025-06-04 15:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク