Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles


ナップザック (CBwK) を使用した確率的コンテキスト バンディット問題を研究します。この問題では、コンテキストで実行される各アクションがランダムな報酬につながるだけでなく、ベクトル形式でランダムなリソース消費が発生します。
期待される報酬と期待されるコストが、それぞれ特定の一般関数クラス $\mathcal{F}$ と $\mathcal{G}$ のコンテキストとアクションの関数である一般的な実現可能性の設定の下で、この問題を調べます。
CBwK に関する既存の作業は、線形形式に大きく依存する UCB タイプのアルゴリズムを使用しているため、線形関数クラスに制限されており、一般的な関数クラスに拡張することは困難です。


We study the stochastic contextual bandit with knapsacks (CBwK) problem, where each action, taken upon a context, not only leads to a random reward but also costs a random resource consumption in a vector form. The challenge is to maximize the total reward without violating the budget for each resource. We study this problem under a general realizability setting where the expected reward and expected cost are functions of contexts and actions in some given general function classes $\mathcal{F}$ and $\mathcal{G}$, respectively. Existing works on CBwK are restricted to the linear function class since they use UCB-type algorithms, which heavily rely on the linear form and thus are difficult to extend to general function classes. Motivated by online regression oracles that have been successfully applied to contextual bandits, we propose the first universal and optimal algorithmic framework for CBwK by reducing it to online regression. We also establish the lower regret bound to show the optimality of our algorithm for a variety of function classes.


著者 Yuxuan Han,Jialin Zeng,Yang Wang,Yang Xiang,Jiheng Zhang
発行日 2023-02-22 14:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク