要約
報酬が非定常である確率的多腕バンディット問題を考察する。我々は、時間の経過に伴う腕の平均報酬の変化が、未知の、潜在的な、次数$k$の自己回帰(AR)状態に起因するという、環境における非定常性の新しい定式化を提示する。この新しい環境を潜在ARバンディットと呼ぶ。潜在的ARバンディットの様々な形は、現実世界の多くの場面、特に行動健康学や教育学のような、環境の力学的モデルがほとんどない新興科学分野で現れる。AR次数$k$が既知であれば、この設定で$tilde{O}(ksqrt{T})$後悔を達成するアルゴリズムを提案する。経験的に、本アルゴリズムは、$k$が誤って指定された場合であっても、複数の非定常環境において標準的なUCBを凌駕する。
要約(オリジナル)
We consider the stochastic multi-armed bandit problem with non-stationary rewards. We present a novel formulation of non-stationarity in the environment where changes in the mean reward of the arms over time are due to some unknown, latent, auto-regressive (AR) state of order $k$. We call this new environment the latent AR bandit. Different forms of the latent AR bandit appear in many real-world settings, especially in emerging scientific fields such as behavioral health or education where there are few mechanistic models of the environment. If the AR order $k$ is known, we propose an algorithm that achieves $\tilde{O}(k\sqrt{T})$ regret in this setting. Empirically, our algorithm outperforms standard UCB across multiple non-stationary environments, even if $k$ is mis-specified.
arxiv情報
著者 | Anna L. Trella,Walter Dempsey,Finale Doshi-Velez,Susan A. Murphy |
発行日 | 2024-02-05 15:38:01+00:00 |
arxivサイト | arxiv_id(pdf) |