要約
タイトル:確率的にトリガーされたアームを持つ文脈的組み合わせ型バンディット
要約:
– C$^2$MAB-Tと呼ばれる文脈的組み合わせ型バンディットにおける確率的にトリガーされたアームを扱うことを研究している。
– トリガー確率を調整する(TPM)条件下でC$^2$-UCB-Tアルゴリズムを提案し、新しい解析方法を開発し、$\tilde{O}(d\sqrt{KT})$の後悔バウンドを達成することができた。
– バッチサイズ$K$がアームあたりトリガーできる最大数であり、$d$は文脈の次元、$p_{min}$は任意のアームがトリガーされる最小正確率である。
– 分散調整(VM)またはトリガー確率と分散調整(TPVM)条件下では、新しい分散適応アルゴリズムVAC$^2$-UCBを提案し、後悔バウンドを$\tilde{O}(d\sqrt{T})$に導出することができる。
– VAC$^2$-UCBアルゴリズムと解析技術は、CMAB-TおよびC$^2$MAB設定にも適用でき、既存の結果を改善することができる。
– さらに、実験を行い、合成および実世界のデータセットにおけるベンチマークアルゴリズムと比較して、アルゴリズムの改善された性能を実証している。
要約(オリジナル)
We study contextual combinatorial bandits with probabilistically triggered arms (C$^2$MAB-T) under a variety of smoothness conditions that capture a wide range of applications, such as contextual cascading bandits and contextual influence maximization bandits. Under the triggering probability modulated (TPM) condition, we devise the C$^2$-UCB-T algorithm and propose a novel analysis that achieves an $\tilde{O}(d\sqrt{KT})$ regret bound, removing a potentially exponentially large factor $O(1/p_{\min})$, where $d$ is the dimension of contexts, $p_{\min}$ is the minimum positive probability that any arm can be triggered, and batch-size $K$ is the maximum number of arms that can be triggered per round. Under the variance modulated (VM) or triggering probability and variance modulated (TPVM) conditions, we propose a new variance-adaptive algorithm VAC$^2$-UCB and derive a regret bound $\tilde{O}(d\sqrt{T})$, which is independent of the batch-size $K$. As a valuable by-product, we find our analysis technique and variance-adaptive algorithm can be applied to the CMAB-T and C$^2$MAB~setting, improving existing results there as well. We also include experiments that demonstrate the improved performance of our algorithms compared with benchmark algorithms on synthetic and real-world datasets.
arxiv情報
著者 | Xutong Liu,Jinhang Zuo,Siwei Wang,John C. S. Lui,Mohammad Hajiesmaili,Adam Wierman,Wei Chen |
発行日 | 2023-03-30 02:51:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI