要約
従来のマルチアームドバンディット(MAB)フレームワークは、主に確率論的または敵対的な設定の下で検査され、推奨システムやオンライン広告などの多くの実世界のアプリケーションに固有の時間的ダイナミクスを見落とすことがよくあります。
この論文では、自己回帰 (AR) 報酬構造を通じてこれらの現実世界のダイナミクスの時間構造を捉える、新しい非定常 MAB フレームワークを紹介します。
我々は、2 つの主要なメカニズムを統合するアルゴリズムを提案します。(i) 一時的な依存関係を活用して探索と活用の動的バランスをとることに優れた変更メカニズム、(ii) 古い情報を破棄するように設計された再起動メカニズム。
私たちのアルゴリズムは、堅牢な動的ベンチマークに対して測定されたリグレスにより、下限とほぼ一致するリグレスの上限を達成します。
最後に、観光需要予測に関する実際のケーススタディを通じて、アルゴリズムの有効性と、より複雑で急速に進化する時系列に対する技術の幅広い適用可能性の両方を実証します。
要約(オリジナル)
Traditional multi-armed bandit (MAB) frameworks, predominantly examined under stochastic or adversarial settings, often overlook the temporal dynamics inherent in many real-world applications such as recommendation systems and online advertising. This paper introduces a novel non-stationary MAB framework that captures the temporal structure of these real-world dynamics through an auto-regressive (AR) reward structure. We propose an algorithm that integrates two key mechanisms: (i) an alternation mechanism adept at leveraging temporal dependencies to dynamically balance exploration and exploitation, and (ii) a restarting mechanism designed to discard out-of-date information. Our algorithm achieves a regret upper bound that nearly matches the lower bound, with regret measured against a robust dynamic benchmark. Finally, via a real-world case study on tourism demand prediction, we demonstrate both the efficacy of our algorithm and the broader applicability of our techniques to more complex, rapidly evolving time series.
arxiv情報
| 著者 | Qinyi Chen,Negin Golrezaei,Djallel Bouneffouf |
| 発行日 | 2023-12-12 18:42:37+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google