要約
このホワイトペーパーでは、盗賊問題におけるポリシー外学習の経験的報酬推定に関する洗練された確率的境界を示します。
Seldin et al。
(2010)およびRodr \ ‘Iguez et al。
(2024)。
この手法は、「確率」パラメーターを最適化するための可能なイベントの空間の離散化に基づいています。
2つのパラメーターのないPACベイの境界を提供します。1つはHoeffding-Azumaの不平等に基づいており、もう1つはBernsteinの不平等に基づいています。
データの実現後に「確率」パラメーターを設定することで得られるのと同じ速度を回復するため、私たちの境界がほぼ最適であることを証明します。
要約(オリジナル)
In this paper, we present refined probabilistic bounds on empirical reward estimates for off-policy learning in bandit problems. We build on the PAC-Bayesian bounds from Seldin et al. (2010) and improve on their results using a new parameter optimization approach introduced by Rodr\’iguez et al. (2024). This technique is based on a discretization of the space of possible events to optimize the ‘in probability’ parameter. We provide two parameter-free PAC-Bayes bounds, one based on Hoeffding-Azuma’s inequality and the other based on Bernstein’s inequality. We prove that our bounds are almost optimal as they recover the same rate as would be obtained by setting the ‘in probability’ parameter after the realization of the data.
arxiv情報
著者 | Amaury Gouverneur,Tobias J. Oechtering,Mikael Skoglund |
発行日 | 2025-02-17 16:05:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google