Inference with the Upper Confidence Bound Algorithm

要約

この論文では、マルチアーム バンディット問題に関連した上限信頼限界 (UCB) アルゴリズムの漸近挙動について説明し、下流の推論タスクにおけるその意味について説明します。
データが逐次的に収集される場合、推論タスクは困難になりますが、使用中の逐次アルゴリズムが特定の安定性特性を満たしている場合、この問題は軽減できると主張します。
この安定性の概念は、Lai と Wei の独創的な研究 (1982 年) から動機付けられています。
最初の主な結果は、このような安定性特性が UCB アルゴリズムに対して常に満たされ、その結果、各アームのサンプル平均が漸近的に正規になることを示しています。
次に、アームの数 $K$ がアームのプル $T$ の数に応じて増加することを許可した場合の UCB アルゴリズムの安定性特性を調べます。
このような場合、 $\frac{\log K}{\log T} \rightarrow 0$ のときにアームが安定しており、最適に近いアームの数が多いことを示します。

要約(オリジナル)

In this paper, we discuss the asymptotic behavior of the Upper Confidence Bound (UCB) algorithm in the context of multiarmed bandit problems and discuss its implication in downstream inferential tasks. While inferential tasks become challenging when data is collected in a sequential manner, we argue that this problem can be alleviated when the sequential algorithm at hand satisfies certain stability property. This notion of stability is motivated from the seminal work of Lai and Wei (1982). Our first main result shows that such a stability property is always satisfied for the UCB algorithm, and as a result the sample means for each arm are asymptotically normal. Next, we examine the stability properties of the UCB algorithm when the number of arms $K$ is allowed to grow with the number of arm pulls $T$. We show that in such a case the arms are stable when $\frac{\log K}{\log T} \rightarrow 0$, and the number of near-optimal arms are large.

arxiv情報

著者 Koulik Khamaru,Cun-Hui Zhang
発行日 2024-08-08 17:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.ST, stat.ML, stat.TH パーマリンク