Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles

要約

ナップザック (CBwK) を使用した確率的コンテキスト バンディット問題を研究します。この問題では、コンテキストで実行される各アクションがランダムな報酬につながるだけでなく、ベクトル形式でランダムなリソース消費が発生します。
課題は、各リソースの予算に違反することなく、総報酬を最大化することです。
期待される報酬と期待されるコストが、それぞれ特定の一般関数クラス $\mathcal{F}$ と $\mathcal{G}$ のコンテキストとアクションの関数である一般的な実現可能性の設定の下で、この問題を調べます。
CBwK に関する既存の作業は、線形形式に大きく依存する UCB タイプのアルゴリズムを使用しているため、線形関数クラスに制限されており、一般的な関数クラスに拡張することは困難です。
コンテキストバンディットにうまく適用されたオンライン回帰オラクルに動機付けられて、CBwKをオンライン回帰に還元することにより、CBwKの最初の普遍的かつ最適なアルゴリズムフレームワークを提案します。
また、さまざまな関数クラスに対するアルゴリズムの最適性を示すために、後悔の下限を確立します。

要約(オリジナル)

We study the stochastic contextual bandit with knapsacks (CBwK) problem, where each action, taken upon a context, not only leads to a random reward but also costs a random resource consumption in a vector form. The challenge is to maximize the total reward without violating the budget for each resource. We study this problem under a general realizability setting where the expected reward and expected cost are functions of contexts and actions in some given general function classes $\mathcal{F}$ and $\mathcal{G}$, respectively. Existing works on CBwK are restricted to the linear function class since they use UCB-type algorithms, which heavily rely on the linear form and thus are difficult to extend to general function classes. Motivated by online regression oracles that have been successfully applied to contextual bandits, we propose the first universal and optimal algorithmic framework for CBwK by reducing it to online regression. We also establish the lower regret bound to show the optimality of our algorithm for a variety of function classes.

arxiv情報

著者 Yuxuan Han,Jialin Zeng,Yang Wang,Yang Xiang,Jiheng Zhang
発行日 2023-02-22 14:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク