要約
決闘バンディット設定における報酬の最大化の問題を、リソース消費の制約とともに考慮します。
古典的な決闘盗賊と同様に、各ラウンドで、学習者は $K$ アイテムのセットからアイテムのペアを選択し、現在のペアに対する相対的なフィードバックを観察する必要があります。
さらに、両方の項目について、学習者はリソース消費のベクトルも観察します。
学習者の目的は、リソースの総消費量が割り当てられた予算内に収まるようにしながら、累積報酬を最大化することです。
フィードバックの相対的な性質により、この問題はバンディットの対応物よりも難しく、さらなる仮定がなければ、この問題は後悔の最小化の観点から学習できないことを示します。
その後、利用可能な予算に関する仮定を利用することで、関連する消費も考慮した EXP3 ベースの決闘アルゴリズムを提供し、それが $\tilde{\mathcal{O}}\left({\frac{OPT^{(
b)}}{B}}K^{1/3}T^{2/3}\right)$ 残念。$OPT^{(b)}$ は最適値、$B$ は利用可能な予算です
。
最後に、数値シミュレーションを提供して、提案した方法の有効性を実証します。
要約(オリジナル)
We consider the problem of reward maximization in the dueling bandit setup along with constraints on resource consumption. As in the classic dueling bandits, at each round the learner has to choose a pair of items from a set of $K$ items and observe a relative feedback for the current pair. Additionally, for both items, the learner also observes a vector of resource consumptions. The objective of the learner is to maximize the cumulative reward, while ensuring that the total consumption of any resource is within the allocated budget. We show that due to the relative nature of the feedback, the problem is more difficult than its bandit counterpart and that without further assumptions the problem is not learnable from a regret minimization perspective. Thereafter, by exploiting assumptions on the available budget, we provide an EXP3 based dueling algorithm that also considers the associated consumptions and show that it achieves an $\tilde{\mathcal{O}}\left({\frac{OPT^{(b)}}{B}}K^{1/3}T^{2/3}\right)$ regret, where $OPT^{(b)}$ is the optimal value and $B$ is the available budget. Finally, we provide numerical simulations to demonstrate the efficacy of our proposed method.
arxiv情報
| 著者 | Rohan Deb,Aadirupa Saha | 
| 発行日 | 2023-12-28 18:55:09+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
