Batched Nonparametric Contextual Bandits

要約

私たちは、バッチ制約の下でノンパラメトリックなコンテキスト バンディットを研究します。各アクションの期待される報酬は共変量の滑らかな関数としてモデル化され、ポリシーの更新は観察の各バッチの終了時に行われます。
この設定のミニマックス リグレスの下限を確立し、最適なリグレス (対数係数まで) を達成する動的ビニングによるバッチ連続消去 (BaSEDB) を提案します。
基本的に、BaSEDB は共変量空間をより小さなビンに動的に分割し、その幅をバッチ サイズに合わせて慎重に調整します。
また、バッチ制約下での静的ビニングの準最適性も示し、動的ビニングの必要性を強調します。
さらに、私たちの結果は、完全にオンラインの設定では、ほぼ一定の数のポリシー更新により最適なリファースが達成できることを示唆しています。

要約(オリジナル)

We study nonparametric contextual bandits under batch constraints, where the expected reward for each action is modeled as a smooth function of covariates, and the policy updates are made at the end of each batch of observations. We establish a minimax regret lower bound for this setting and propose Batched Successive Elimination with Dynamic Binning (BaSEDB) that achieves optimal regret (up to logarithmic factors). In essence, BaSEDB dynamically splits the covariate space into smaller bins, carefully aligning their widths with the batch size. We also show the suboptimality of static binning under batch constraints, highlighting the necessity of dynamic binning. Additionally, our results suggest that a nearly constant number of policy updates can attain optimal regret in the fully online setting.

arxiv情報

著者 Rong Jiang,Cong Ma
発行日 2024-02-27 18:06:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク