要約
$S $ コンテキストと $A $ アクションを使用したコンテキスト バンディット問題を考えます。
各ラウンド $t=1,2,\dots$ で、学習者はランダムな状況を観察し、過去の経験に基づいて行動を選択します。
次に学習者は、その平均がコンテキストとラウンドのアクションの関数であるランダムな報酬を観察します。
コンテキストを $r\le \min\{S ,A \}$ グループにまとめて、さまざまなアクションに対する平均報酬が同じグループ内の 2 つのコンテキストで同じになるという仮定の下で、次のようにします。
最大 $\widetilde O(r (S +A )/\epsilon^2)$ サンプルを高確率で使用した後、$\epsilon$-optimal ポリシーを出力し、一致する $\widetilde\Omega(r (
S +A )/\epsilon^2)$ 下限。
リグレス最小化設定では、$T$ までの累積リグレスが $\widetilde O(\sqrt{r^3(S +A )T})$ によって制限されるアルゴリズムを与えます。
私たちの知る限り、PAC 設定で最適に近いサンプルの複雑性と、
この問題のオンライン設定。
また、私たちのアルゴリズムがより一般的な低ランクの盗賊に適用でき、一部のシナリオではリグレス限界が改善されることも示します。
要約(オリジナル)
We consider a contextual bandit problem with $S $ contexts and $A $ actions. In each round $t=1,2,\dots$ the learner observes a random context and chooses an action based on its past experience. The learner then observes a random reward whose mean is a function of the context and the action for the round. Under the assumption that the contexts can be lumped into $r\le \min\{S ,A \}$ groups such that the mean reward for the various actions is the same for any two contexts that are in the same group, we give an algorithm that outputs an $\epsilon$-optimal policy after using at most $\widetilde O(r (S +A )/\epsilon^2)$ samples with high probability and provide a matching $\widetilde\Omega(r (S +A )/\epsilon^2)$ lower bound. In the regret minimization setting, we give an algorithm whose cumulative regret up to time $T$ is bounded by $\widetilde O(\sqrt{r^3(S +A )T})$. To the best of our knowledge, we are the first to show the near-optimal sample complexity in the PAC setting and $\widetilde O(\sqrt{{poly}(r)(S+K)T})$ minimax regret in the online setting for this problem. We also show our algorithms can be applied to more general low-rank bandits and get improved regret bounds in some scenarios.
arxiv情報
著者 | Chung-Wei Lee,Qinghua Liu,Yasin Abbasi-Yadkori,Chi Jin,Tor Lattimore,Csaba Szepesvári |
発行日 | 2023-06-22 17:20:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google