Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach


従来のマルチアームドバンディット(MAB)アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない定常環境用に設計されている。しかし、多くのアプリケーションでは、環境はより正確に非定常としてモデル化される。この研究では、部分定常MAB(PS-MAB)環境について研究する。この環境では、アームの部分集合に関連する報酬分布は、いくつかの変化点で変化し、変化点と変化点の間は定常のままである。我々はPS-MABの漸近解析に焦点を当てており、このPS-MABに対しては、変化検出(CD)に基づく実用的なアルゴリズムが以前に提案されている。我々の目的は、このようなCD-based Bandit (CDB)の設計と解析をモジュール化することである。そのために、モジュール化に必要なCDB手続きにおける定常バンディットアルゴリズムと変化検出器の要件を明らかにする。報酬はサブガウス的であると仮定する。この仮定と変化点の分離に関する条件の下で、CDB手続きの解析が実際にモジュール化できることを示し、変化検出器とバンディットアルゴリズムの様々な組み合わせに対して、後悔の境界を統一的な方法で求めることができる。この解析を通して、我々は次数最適な新しいモジュラーCDB手続きを開発する。シミュレーションにより、我々のモジュラーCDB手続きの性能を他の様々な方法と比較する。


Conventional Multi-Armed Bandit (MAB) algorithms are designed for stationary environments, where the reward distributions associated with the arms do not change with time. In many applications, however, the environment is more accurately modeled as being nonstationary. In this work, piecewise stationary MAB (PS-MAB) environments are investigated, in which the reward distributions associated with a subset of the arms change at some change-points and remain stationary between change-points. Our focus is on the asymptotic analysis of PS-MABs, for which practical algorithms based on change detection (CD) have been previously proposed. Our goal is to modularize the design and analysis of such CD-based Bandit (CDB) procedures. To this end, we identify the requirements for stationary bandit algorithms and change detectors in a CDB procedure that are needed for the modularization. We assume that the rewards are sub-Gaussian. Under this assumption and a condition on the separation of the change-points, we show that the analysis of CDB procedures can indeed be modularized, so that regret bounds can be obtained in a unified manner for various combinations of change detectors and bandit algorithms. Through this analysis, we develop new modular CDB procedures that are order-optimal. We compare the performance of our modular CDB procedures with various other methods in simulations.


著者 Yu-Han Huang,Argyrios Gerogiannis,Subhonmesh Bose,Venugopal V. Veeravalli
発行日 2025-01-02 15:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, stat.ML パーマリンク