要約
この論文では、非縮退関数のバッチ バンディット学習問題を研究します。
非縮退関数に対するバッチ化されたバンディット問題をほぼ最適に解決するアルゴリズムを導入します。
より具体的には、Geometric Narrowing (GN) と呼ばれるアルゴリズムを導入します。このアルゴリズムのリグレス限界は $\widetilde{{\mathcal{O}}} ( A_{+}^d \sqrt{T} )$ 程度です。
さらに、GN はこの後悔を達成するために $\mathcal{O} (\log \log T)$ バッチだけを必要とします。
この問題に対する下限分析も提供します。
より具体的には、2 倍化次元 $d$ の (コンパクトな) 2 倍化計量空間上で、次のことを証明します。 1. 任意のポリシー $\pi$ について、$\pi$ が注文 ${\ の後悔を認める問題インスタンスが存在します。
オメガ} ( A_-^d \sqrt{T})$;
2. $ \Omega ( \log \log T ) $ 回未満の通信を使用して、すべての問題インスタンスに対して $ A_-^d \sqrt{T} $ の命令を達成する政策はありません。
私たちの下限分析では、GN アルゴリズムが最小限のバッチ数でほぼ最適なリチャードを達成することが示されています。
要約(オリジナル)
This paper studies batched bandit learning problems for nondegenerate functions. We introduce an algorithm that solves the batched bandit problem for nondegenerate functions near-optimally. More specifically, we introduce an algorithm, called Geometric Narrowing (GN), whose regret bound is of order $\widetilde{{\mathcal{O}}} ( A_{+}^d \sqrt{T} )$. In addition, GN only needs $\mathcal{O} (\log \log T)$ batches to achieve this regret. We also provide lower bound analysis for this problem. More specifically, we prove that over some (compact) doubling metric space of doubling dimension $d$: 1. For any policy $\pi$, there exists a problem instance on which $\pi$ admits a regret of order ${\Omega} ( A_-^d \sqrt{T})$; 2. No policy can achieve a regret of order $ A_-^d \sqrt{T} $ over all problem instances, using less than $ \Omega ( \log \log T ) $ rounds of communications. Our lower bound analysis shows that the GN algorithm achieves near optimal regret with minimal number of batches.
arxiv情報
著者 | Yu Liu,Yunlu Shu,Tianyu Wang |
発行日 | 2024-05-09 12:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google