要約
すなわち、$mathsf{Reg}_{gamma}(T)= \sum_{t = 1}^T Γ f(Γpi) – f(Γpi_t)$ の下界である。この$gamma$-regretは、$f$の厳密な最適値を見つけることが困難な構造化バンディット問題で発生する。我々の下界は、~citet{foster2023tight}の制約付き決定推定係数(DEC)の修正で与えられ、(元のオフセットDEC of \citet{foster2021statistical}と密接に関連している)、我々は$gamma$-DECと呼ぶ。この結果は、$gamma=1$という伝統的な後悔の設定に制限される場合において、Ⓐcitet{foster2023tight}の下界における対数因子を除去するものである。
要約(オリジナル)
In this note, we give a new lower bound for the $\gamma$-regret in bandit problems, the regret which arises when comparing against a benchmark that is $\gamma$ times the optimal solution, i.e., $\mathsf{Reg}_{\gamma}(T) = \sum_{t = 1}^T \gamma \max_{\pi} f(\pi) – f(\pi_t)$. The $\gamma$-regret arises in structured bandit problems where finding an exact optimum of $f$ is intractable. Our lower bound is given in terms of a modification of the constrained Decision-Estimation Coefficient (DEC) of~\citet{foster2023tight} (and closely related to the original offset DEC of \citet{foster2021statistical}), which we term the $\gamma$-DEC. When restricted to the traditional regret setting where $\gamma = 1$, our result removes the logarithmic factors in the lower bound of \citet{foster2023tight}.
arxiv情報
著者 | Margalit Glasgow,Alexander Rakhlin |
発行日 | 2023-03-06 17:54:33+00:00 |
arxivサイト | arxiv_id(pdf) |