Restless Linear Bandits

要約

線形バンディット問題のより一般的な定式化は、時間の経過に伴う依存関係を考慮すると考えられます。
具体的には、パラメータ $(\theta_t,~t \in \mathbb{N})$ の未知の $\mathbb{R}^d$ 値の定常 $\varphi$ 混合シーケンスが存在すると仮定します。
返済のために。
この問題の例は、iid ノイズを伴う古典的な線形バンディットと有限腕の落ち着きのないバンディットの両方を一般化したものとみなすことができます。
落ち着きのない盗賊に対する最適なポリシーのよく知られた計算上の困難さを考慮して、その誤差が連続する $\theta_t$ 間の $\varphi$ 依存性によって制御されることが示される近似が提案されます。
$\theta_t$ が指数関数的な混合率を持つ場合には、LinMix-UCB と呼ばれる楽観的アルゴリズムが提案されています。
提案されたアルゴリズムは、常に次の倍数を実行するオラクルに関して、$\mathcal{O}\left(\sqrt{d n\mathrm{polylog}(n) }\right)$ のサブリニアリグレットを引き起こすことが示されています。
$\mathbb{E}\theta_t$。
この設定における主な課題は、探査・悪用戦略が長距離の依存関係に対して堅牢であることを確認することです。
提案された方法は、Berbee の結合補題に依存して、ほぼ独立したサンプルを慎重に選択し、$\mathbb{E}\theta_t$ の経験的推定値を中心に信頼楕円体を構築します。

要約(オリジナル)

A more general formulation of the linear bandit problem is considered to allow for dependencies over time. Specifically, it is assumed that there exists an unknown $\mathbb{R}^d$-valued stationary $\varphi$-mixing sequence of parameters $(\theta_t,~t \in \mathbb{N})$ which gives rise to pay-offs. This instance of the problem can be viewed as a generalization of both the classical linear bandits with iid noise, and the finite-armed restless bandits. In light of the well-known computational hardness of optimal policies for restless bandits, an approximation is proposed whose error is shown to be controlled by the $\varphi$-dependence between consecutive $\theta_t$. An optimistic algorithm, called LinMix-UCB, is proposed for the case where $\theta_t$ has an exponential mixing rate. The proposed algorithm is shown to incur a sub-linear regret of $\mathcal{O}\left(\sqrt{d n\mathrm{polylog}(n) }\right)$ with respect to an oracle that always plays a multiple of $\mathbb{E}\theta_t$. The main challenge in this setting is to ensure that the exploration-exploitation strategy is robust against long-range dependencies. The proposed method relies on Berbee’s coupling lemma to carefully select near-independent samples and construct confidence ellipsoids around empirical estimates of $\mathbb{E}\theta_t$.

arxiv情報

著者 Azadeh Khaleghi
発行日 2024-05-17 14:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク