要約
我々は、敵対的なコンテキストバンディット問題に対するオラクル効率の高い緩和を提案します。この問題では、コンテキストは既知の分布から逐次的に直接描画され、コストシーケンスはオンラインの敵対者によって選択されます。
私たちのアルゴリズムには $O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$ の後悔限界があり、最大でも
$O(K)$ はラウンドごとにオフライン最適化オラクルを呼び出します。ここで、$K$ はアクションの数、$T$ はラウンドの数、$\Pi$ はポリシーのセットを示します。
これは、以前の最適範囲 $O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}} を改善する最初の結果です
)$ Syrgkanis らによって得られたもの。
これは、NeurIPS 2016 での結果であり、NeurIPS 2007 で確率論的な場合に得られた Langford と Zhang の元の限界と最初に一致しました。
要約(オリジナル)
We present an oracle-efficient relaxation for the adversarial contextual bandits problem, where the contexts are sequentially drawn i.i.d from a known distribution and the cost sequence is chosen by an online adversary. Our algorithm has a regret bound of $O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$ and makes at most $O(K)$ calls per round to an offline optimization oracle, where $K$ denotes the number of actions, $T$ denotes the number of rounds and $\Pi$ denotes the set of policies. This is the first result to improve the prior best bound of $O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}})$ as obtained by Syrgkanis et al. at NeurIPS 2016, and the first to match the original bound of Langford and Zhang at NeurIPS 2007 which was obtained for the stochastic case.
arxiv情報
著者 | Kiarash Banihashem,MohammadTaghi Hajiaghayi,Suho Shin,Max Springer |
発行日 | 2023-11-10 16:14:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google