要約
Coquelin and Munos (2007) の下限の証明を改良し、UCT が $\exp(\dots\exp(1)\dots)$ 後悔 ($\Omega(D)$ exp 項を含む) を持つ可能性があることを実証します。
$D$ チェーン環境、および「多項式」UCT バリアントには同じ環境で $\exp_2(\exp_2(D – O(\log D)))$ の後悔がある — 元の証明には報酬の見落としが含まれている
$[0, 1]$ で制限されていますが、これは現在のドラフトで修正します。
また、$\exp_2(\exp_2(D – O(\log D)))$ の後悔も示すために、証明を AlphaGo の MCTS とその子孫 (AlphaZero、Leela Zero など) に適応させます。
要約(オリジナル)
We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment, and that a `polynomial’ UCT variant has $\exp_2(\exp_2(D – O(\log D)))$ regret on the same environment — the original proofs contain an oversight for rewards bounded in $[0, 1]$, which we fix in the present draft. We also adapt the proofs to AlphaGo’s MCTS and its descendants (e.g., AlphaZero, Leela Zero) to also show $\exp_2(\exp_2(D – O(\log D)))$ regret.
arxiv情報
著者 | Laurent Orseau,Remi Munos |
発行日 | 2024-05-17 12:15:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google