要約
線形確率的盗賊問題を研究し、標準的なi.i.d.をリラックスさせます。
観測ノイズの仮定。
この制限的な仮定に代わるものとして、ラウンド全体のノイズ項がサブガウスであるが相互依存的であり、依存関係が時間の経過とともに崩壊することを許可します。
この設定に対処するために、最近導入された削減スキームを順次確率割り当てして新しい信頼シーケンスを開発し、これらを使用して、不確実性に直面した楽観主義の原理に基づいて盗賊アルゴリズムを導き出します。
観測間の依存性の強度の減衰率の観点から表される、結果のアルゴリズムの後悔の境界を提供します。
他の結果の中でも、観測ノイズを幾何学的に混合するための混合時間の係数まで標準速度を回収することを示します。
要約(オリジナル)
We study the linear stochastic bandit problem, relaxing the standard i.i.d. assumption on the observation noise. As an alternative to this restrictive assumption, we allow the noise terms across rounds to be sub-Gaussian but interdependent, with dependencies that decay over time. To address this setting, we develop new confidence sequences using a recently introduced reduction scheme to sequential probability assignment, and use these to derive a bandit algorithm based on the principle of optimism in the face of uncertainty. We provide regret bounds for the resulting algorithm, expressed in terms of the decay rate of the strength of dependence between observations. Among other results, we show that our bounds recover the standard rates up to a factor of the mixing time for geometrically mixing observation noise.
arxiv情報
著者 | Baptiste Abélès,Eugenio Clerico,Hamish Flynn,Gergely Neu |
発行日 | 2025-05-27 09:24:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google