Super-Exponential Regret for UCT, AlphaGo and Variants

要約

Coquelin and Munos (2007) の下限の証明を改良し、UCT が $\exp(\dots\exp(1)\dots)$ 後悔 ($\Omega(D)$ exp 項を含む) を持つ可能性があることを実証します。
$D$ チェーン環境、および「多項式」UCT バリアントには同じ環境で $\exp_2(\exp_2(D – O(\log D)))$ の後悔がある — 元の証明には報酬の見落としが含まれている
$[0, 1]$ で制限されていますが、これは現在のドラフトで修正します。
また、$\exp_2(\exp_2(D – O(\log D)))$ の後悔も示すために、証明を AlphaGo の MCTS とその子孫 (AlphaZero、Leela Zero など) に適応させます。

要約(オリジナル)

We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment, and that a `polynomial’ UCT variant has $\exp_2(\exp_2(D – O(\log D)))$ regret on the same environment — the original proofs contain an oversight for rewards bounded in $[0, 1]$, which we fix in the present draft. We also adapt the proofs to AlphaGo’s MCTS and its descendants (e.g., AlphaZero, Leela Zero) to also show $\exp_2(\exp_2(D – O(\log D)))$ regret.

arxiv情報

著者 Laurent Orseau,Remi Munos
発行日 2024-05-07 15:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク