要約
私たちは、総コスト予算ではなく\ textit {amytime}コストの制約があるBWK問題の新しいバージョンである、いつでもナップサック(BWAK)で盗賊を検討します。
この問題設定は、意思決定プロセス全体の制約の順守を義務付けるため、追加の複雑さをもたらします。
私たちは、探査と搾取のバランスを維持しながら、アームの最適な混合を識別するために上部信頼境界を利用するアルゴリズムであるSuakを提案します。
Suakは、意思決定プロセスで各ラウンドで利用可能な予算を戦略的に利用し、いつでもコストの制約に違反する可能性がある場合にラウンドをスキップする適応アルゴリズムです。
特に、Suakは利用可能なコスト予算をわずかに十分に活用して、ラウンドをスキップする必要性を減らします。
Suakは、よりシンプルなBWKフレームワークの下で以前の作業で確立された$ O(k \ log t)$の同じ問題依存の後悔の上限を達成していることを示します。
最後に、実際の設定でSuakのユーティリティを確認するためのシミュレーションを提供します。
要約(オリジナル)
We consider bandits with anytime knapsacks (BwAK), a novel version of the BwK problem where there is an \textit{anytime} cost constraint instead of a total cost budget. This problem setting introduces additional complexities as it mandates adherence to the constraint throughout the decision-making process. We propose SUAK, an algorithm that utilizes upper confidence bounds to identify the optimal mixture of arms while maintaining a balance between exploration and exploitation. SUAK is an adaptive algorithm that strategically utilizes the available budget in each round in the decision-making process and skips a round when it is possible to violate the anytime cost constraint. In particular, SUAK slightly under-utilizes the available cost budget to reduce the need for skipping rounds. We show that SUAK attains the same problem-dependent regret upper bound of $ O(K \log T)$ established in prior work under the simpler BwK framework. Finally, we provide simulations to verify the utility of SUAK in practical settings.
arxiv情報
著者 | Eray Can Elumar,Cem Tekin,Osman Yagan |
発行日 | 2025-01-30 18:36:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google