要約
非定常報酬を伴う確率的多腕バンディット問題を検討します。
我々は、時間の経過に伴うアームの平均報酬の変化が $k$ オーダーの未知の潜在的な自己回帰 (AR) 状態によるものである環境における非定常性の新しい定式化を提示します。
私たちはこの新しい環境を潜在 AR バンディットと呼んでいます。
潜在的な AR バンディットのさまざまな形態が、現実世界の多くの環境、特に環境のメカニズム モデルがほとんどない行動健康や教育などの新興科学分野に現れます。
AR 次数 $k$ が既知の場合、この設定で $\tilde{O}(k\sqrt{T})$ リグレットを達成するアルゴリズムを提案します。
経験的に、たとえ $k$ が間違って指定されていたとしても、私たちのアルゴリズムは複数の非定常環境にわたって標準 UCB よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
We consider the stochastic multi-armed bandit problem with non-stationary rewards. We present a novel formulation of non-stationarity in the environment where changes in the mean reward of the arms over time are due to some unknown, latent, auto-regressive (AR) state of order $k$. We call this new environment the latent AR bandit. Different forms of the latent AR bandit appear in many real-world settings, especially in emerging scientific fields such as behavioral health or education where there are few mechanistic models of the environment. If the AR order $k$ is known, we propose an algorithm that achieves $\tilde{O}(k\sqrt{T})$ regret in this setting. Empirically, our algorithm outperforms standard UCB across multiple non-stationary environments, even if $k$ is mis-specified.
arxiv情報
著者 | Anna L. Trella,Walter Dempsey,Finale Doshi-Velez,Susan A. Murphy |
発行日 | 2024-08-12 16:58:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google