A Refined Analysis of UCBVI

要約

この作業では、UCBVIアルゴリズムの洗練された分析(Azar et al。、2017)を提供し、ボーナス条件と後悔分析の両方を改善します。
さらに、UCBVIのバージョンを元のバージョンと最先端のMVPアルゴリズムの両方と比較します。
私たちの経験的検証は、境界内の乗法定数を改善することがアルゴリズムの経験的パフォーマンスに大きなプラスの効果があることを示しています。

要約(オリジナル)

In this work, we provide a refined analysis of the UCBVI algorithm (Azar et al., 2017), improving both the bonus terms and the regret analysis. Additionally, we compare our version of UCBVI with both its original version and the state-of-the-art MVP algorithm. Our empirical validation demonstrates that improving the multiplicative constants in the bounds has significant positive effects on the empirical performance of the algorithms.

arxiv情報

著者 Simone Drago,Marco Mussi,Alberto Maria Metelli
発行日 2025-02-24 17:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク