Batched Nonparametric Bandits via k-Nearest Neighbor UCB

要約

バッチ付きノンパラメトリックコンテキストバンディットでシーケンシャルな意思決定を研究します。そこでは、少数のバッチに分割された有限の地平線でアクションが選択されます。
オンラインフィードバックが制限されている医学やマーケティングなどのドメインの制約に動機付けられています。適応性のあるk-nearest neight(k-nn)回帰を組み合わせたノンパラメトリックアルゴリズムを提案します。
私たちの方法であるBank-UCBは、完全にノンパラメトリックであり、コンテキストのディメンションに適応し、実装が簡単です。
パラメトリックまたはビニングベースの推定器に依存している以前の作業とは異なり、Bank-UCBはローカルジオメトリを使用して報酬を推定し、適応的に調査と搾取をバランスさせます。
標準的なリプシッツの滑らかさとマージンの仮定の下でほぼ最適な後悔保証を提供します。これは、バッチ全体で後悔をバランスさせ、最小限の最適レートを達成する理論的に動機付けられたバッチスケジュールを使用します。
合成および実世界のデータセットに関する経験的評価は、Bank-UCBが一貫してビニングベースのベースラインを上回ることを示しています。

要約(オリジナル)

We study sequential decision-making in batched nonparametric contextual bandits, where actions are selected over a finite horizon divided into a small number of batches. Motivated by constraints in domains such as medicine and marketing — where online feedback is limited — we propose a nonparametric algorithm that combines adaptive k-nearest neighbor (k-NN) regression with the upper confidence bound (UCB) principle. Our method, BaNk-UCB, is fully nonparametric, adapts to the context dimension, and is simple to implement. Unlike prior work relying on parametric or binning-based estimators, BaNk-UCB uses local geometry to estimate rewards and adaptively balances exploration and exploitation. We provide near-optimal regret guarantees under standard Lipschitz smoothness and margin assumptions, using a theoretically motivated batch schedule that balances regret across batches and achieves minimax-optimal rates. Empirical evaluations on synthetic and real-world datasets demonstrate that BaNk-UCB consistently outperforms binning-based baselines.

arxiv情報

著者 Sakshi Arya
発行日 2025-05-15 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G08, 62L05, 68Q32, 68T05, cs.LG, F.2.2, math.ST, stat.ME, stat.ML, stat.TH パーマリンク