要約
未知の単調な部分モジュラー集合関数 $f: 2^{[n]} \rightarrow [0,1]$ を、確率的バンディット フィードバックの下でカーディナリティ制約で最大化することを考えます。
$t=1,\dots,T$ ごとに、学習者は $|S_t| を使用して集合 $S_t \subset [n]$ を選択します。
\leq k$ となり、報酬 $f(S_t) + \eta_t$ を受け取ります。ここで、$\eta_t$ は平均ゼロのサブガウス ノイズです。
目的は、$|S_*| による最大 $f(S_*)$ の近似に対する学習者の後悔を最小限に抑えることです。
= k$、$f$ の堅牢な貪欲な最大化によって取得されます。
現在までのところ、文献に記載されている最大の後悔は $k n^{1/3} T^{2/3}$ に相当します。
そして、すべてのセットを一意のアームとして自明に扱うことによって、標準のマルチアーム バンディット アルゴリズムを使用しても $\sqrt{ {n \choose k} T }$ が達成可能であることが推測されます。
この作業では、$\tilde{\Omega}(\min_{L \le k}(L^{1/3}n^{1/3}T^) のようにスケールするこの設定の最初のミニマックス下限を確立します。
{2/3} + \sqrt{{n \choose k – L}T}))$。
わずかに制限されたアルゴリズム クラスの場合、 $\tilde{\Omega}(\min_{L \le k}(Ln^{1/3}T^{2/3} + \sqrt{
{n \choose k – L}T}))$。
さらに、後悔 $\tilde{\mathcal{O}}(\min_{L \le k}(Ln^{1/3}T^{2/3} + \sqrt{) を達成するアルゴリズム Sub-UCB を提案します。
{n \choose k – L}T}))$ は、制限されたクラスのリグレスの下限を対数因数まで一致させることができます。
要約(オリジナル)
We consider maximizing an unknown monotonic, submodular set function $f: 2^{[n]} \rightarrow [0,1]$ with cardinality constraint under stochastic bandit feedback. At each time $t=1,\dots,T$ the learner chooses a set $S_t \subset [n]$ with $|S_t| \leq k$ and receives reward $f(S_t) + \eta_t$ where $\eta_t$ is mean-zero sub-Gaussian noise. The objective is to minimize the learner’s regret with respect to an approximation of the maximum $f(S_*)$ with $|S_*| = k$, obtained through robust greedy maximization of $f$. To date, the best regret bound in the literature scales as $k n^{1/3} T^{2/3}$. And by trivially treating every set as a unique arm one deduces that $\sqrt{ {n \choose k} T }$ is also achievable using standard multi-armed bandit algorithms. In this work, we establish the first minimax lower bound for this setting that scales like $\tilde{\Omega}(\min_{L \le k}(L^{1/3}n^{1/3}T^{2/3} + \sqrt{{n \choose k – L}T}))$. For a slightly restricted algorithm class, we prove a stronger regret lower bound of $\tilde{\Omega}(\min_{L \le k}(Ln^{1/3}T^{2/3} + \sqrt{{n \choose k – L}T}))$. Moreover, we propose an algorithm Sub-UCB that achieves regret $\tilde{\mathcal{O}}(\min_{L \le k}(Ln^{1/3}T^{2/3} + \sqrt{{n \choose k – L}T}))$ capable of matching the lower bound on regret for the restricted class up to logarithmic factors.
arxiv情報
著者 | Artin Tajdini,Lalit Jain,Kevin Jamieson |
発行日 | 2024-12-12 17:24:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google