Communication-Constrained Bandits under Additive Gaussian Noise

要約

タイトル:加算ガウスノイズ下での通信制約バンディット

要約:

– 分散型の確率的なマルチアームバンディットを研究し、顧客は、対応する腕の引っ張りに基づく報酬に基づく通信制約のフィードバックを学習者に提供します。
– セットアップでは、クライアントは、エンコードされた報酬の2乗平均が $P$ を超えないように報酬をエンコードし、このエンコードされた報酬は、分散が $\sigma^2$ の加算ガウスノイズによってさらに破損します。
– 最小maxの後悔の情報理論的な下限を $\Omega\left(\sqrt{\frac{KT}{\mathtt{SNR} \wedge1}} \right)$ に導き、これに対して $\mathtt{UE\text{-}UCB++}$ という多相バンディットアルゴリズムを提案する。
– この算法は、初期段階で均一な探索を実行し、その後、最終段階で{\em 上部信頼区間} (UCB)バンディットアルゴリズムを利用する。
– $\mathtt{UE\text{-}UCB++}$ の興味深い特徴の1つは、均一探索段階で形成された平均報酬の粗い推定値が、次の段階でエンコードプロトコルを修正するのに役立ち、その結果、次の段階の報酬のより正確な平均推定値を得ることができます。この正のフィードバックサイクルは、均一探索ラウンドの数を減らし、私たちの下限に近く一致することが重要です。

要約(オリジナル)

We study a distributed stochastic multi-armed bandit where a client supplies the learner with communication-constrained feedback based on the rewards for the corresponding arm pulls. In our setup, the client must encode the rewards such that the second moment of the encoded rewards is no more than $P$, and this encoded reward is further corrupted by additive Gaussian noise of variance $\sigma^2$; the learner only has access to this corrupted reward. For this setting, we derive an information-theoretic lower bound of $\Omega\left(\sqrt{\frac{KT}{\mathtt{SNR} \wedge1}} \right)$ on the minimax regret of any scheme, where $ \mathtt{SNR} := \frac{P}{\sigma^2}$, and $K$ and $T$ are the number of arms and time horizon, respectively. Furthermore, we propose a multi-phase bandit algorithm, $\mathtt{UE\text{-}UCB++}$, which matches this lower bound to a minor additive factor. $\mathtt{UE\text{-}UCB++}$ performs uniform exploration in its initial phases and then utilizes the {\em upper confidence bound }(UCB) bandit algorithm in its final phase. An interesting feature of $\mathtt{UE\text{-}UCB++}$ is that the coarser estimates of the mean rewards formed during a uniform exploration phase help to refine the encoding protocol in the next phase, leading to more accurate mean estimates of the rewards in the subsequent phase. This positive reinforcement cycle is critical to reducing the number of uniform exploration rounds and closely matching our lower bound.

arxiv情報

著者 Prathamesh Mayekar,Jonathan Scarlett,Vincent Y. F. Tan
発行日 2023-04-25 09:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク