Detection Is All You Need: A Feasible Optimal Prior-Free Black-Box Approach For Piecewise Stationary Bandits

要約

私たちは、基礎となる非定常性の事前の知識なしに、区分的な静止盗賊の問題を研究しています。
最も一般的なパラメトリックバンディットバリアントに適用される最初の$ \ textit {everible} $ブラックボックスアルゴリズムを提案します。
私たちの手順は、検出拡張bandit(DAB)と呼ばれ、モジュール式であり、静止した盗賊アルゴリズムを入力として受け入れ、変更検出器でそれを増強します。
DABは、軽度の仮定の下で、区分的な固定環境で最適な後悔を達成します。
具体的には、DABが$ \ tilde {\ mathcal {o}}(\ sqrt {n_t t})$の注文最適な後悔の境界を達成することを証明します。
入力の固定盗賊アルゴリズムには、注文最適な定常後悔の保証がある場合。
さまざまなパラメトリックバンディット設定にDABを適用すると、最近の最新の結果を回復します。
特に、自己矛盾した盗賊の場合、DABは最適な動的後悔を達成しますが、以前の作品は最適ではない境界を獲得し、非定常性に関する知識を必要とします。
区分的な固定環境のシミュレーションでは、DABはさまざまな数の変更にわたって既存のアプローチを上回ります。
興味深いことに、区分的な固定環境向けに理論的に設計されているにもかかわらず、DABは漂流環境のシミュレーションにも効果的であり、このシナリオ向けに特別に設計された既存の方法よりも優れています。

要約(オリジナル)

We study the problem of piecewise stationary bandits without prior knowledge of the underlying non-stationarity. We propose the first $\textit{feasible}$ black-box algorithm applicable to most common parametric bandit variants. Our procedure, termed Detection Augmented Bandit (DAB), is modular, accepting any stationary bandit algorithm as input and augmenting it with a change detector. DAB achieves optimal regret in the piecewise stationary setting under mild assumptions. Specifically, we prove that DAB attains the order-optimal regret bound of $\tilde{\mathcal{O}}(\sqrt{N_T T})$, where $N_T$ denotes the number of changes over the horizon $T$, if its input stationary bandit algorithm has order-optimal stationary regret guarantees. Applying DAB to different parametric bandit settings, we recover recent state-of-the-art results. Notably, for self-concordant bandits, DAB achieves optimal dynamic regret, while previous works obtain suboptimal bounds and require knowledge on the non-stationarity. In simulations on piecewise stationary environments, DAB outperforms existing approaches across varying number of changes. Interestingly, despite being theoretically designed for piecewise stationary environments, DAB is also effective in simulations in drifting environments, outperforming existing methods designed specifically for this scenario.

arxiv情報

著者 Argyrios Gerogiannis,Yu-Han Huang,Subhonmesh Bose,Venugopal V. Veeravalli
発行日 2025-01-31 18:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク