要約
この論文では、(i) 迅速な特定と最適なアームへのコミット、(ii) 一連の $T$ 連続ラウンド全体にわたる報酬の最大化という 2 つの目的を持つ確率的マルチアーム バンディット (MAB) 問題を検討します。
各目標、つまり、(i) の最適なアームの特定と (ii) のリグレス最小化は個別に十分に研究されていますが、両方の目標を同時に実現することは、実際的な重要性にも関わらず未解決の問題のままです。
この文書では、これら 2 つの目的を達成することを目的とした \emph{Regret Optimal Best Arm Identification} (ROBAI) を紹介します。
事前に決定された停止時間と適応停止時間の両方の要件で ROBAI を解くために、EOCP と呼ばれるアルゴリズムとそのバリアントをそれぞれ提示します。これは、ガウス バンディットと一般バンディットの両方で漸近的な最適なリチャードを達成するだけでなく、$ での最適なアームにもコミットします。
\mathcal{O}(\log T)$ は事前に決定された停止時間で丸め、$\mathcal{O}(\log^2 T)$ は適応停止時間で丸めます。
さらに、ROBAI のコミットメント時間 (サンプルの複雑さに相当) の下限を特徴付け、EOCP とそのバリアントが、事前に決定された停止時間でサンプル最適であり、適応停止時間でほぼサンプル最適であることを示します。
数値結果は、私たちの理論的分析を裏付け、古典的な UCB アルゴリズムによってもたらされる興味深い「過剰探索」現象を明らかにしました。そのため、EOCP は、UCB よりはるかに早く探索を停止したにもかかわらず、後悔が小さい、つまり $\mathcal{O}(\log T
)$ と $\mathcal{O}(T)$ の比較。これは、過剰な探索は不必要であり、システムのパフォーマンスに悪影響を与える可能性があることを示唆しています。
要約(オリジナル)
This paper considers a stochastic Multi-Armed Bandit (MAB) problem with dual objectives: (i) quick identification and commitment to the optimal arm, and (ii) reward maximization throughout a sequence of $T$ consecutive rounds. Though each objective has been individually well-studied, i.e., best arm identification for (i) and regret minimization for (ii), the simultaneous realization of both objectives remains an open problem, despite its practical importance. This paper introduces \emph{Regret Optimal Best Arm Identification} (ROBAI) which aims to achieve these dual objectives. To solve ROBAI with both pre-determined stopping time and adaptive stopping time requirements, we present an algorithm called EOCP and its variants respectively, which not only achieve asymptotic optimal regret in both Gaussian and general bandits, but also commit to the optimal arm in $\mathcal{O}(\log T)$ rounds with pre-determined stopping time and $\mathcal{O}(\log^2 T)$ rounds with adaptive stopping time. We further characterize lower bounds on the commitment time (equivalent to the sample complexity) of ROBAI, showing that EOCP and its variants are sample optimal with pre-determined stopping time, and almost sample optimal with adaptive stopping time. Numerical results confirm our theoretical analysis and reveal an interesting ‘over-exploration’ phenomenon carried by classic UCB algorithms, such that EOCP has smaller regret even though it stops exploration much earlier than UCB, i.e., $\mathcal{O}(\log T)$ versus $\mathcal{O}(T)$, which suggests over-exploration is unnecessary and potentially harmful to system performance.
arxiv情報
著者 | Qining Zhang,Lei Ying |
発行日 | 2023-10-27 16:00:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google