要約
我々は、非定常環境における確率的文脈線形バンディットのための新しいベイジアン楽観的頻度主義上限信頼限界 (BOF-UCB) アルゴリズムを提案します。
ベイズ主義と頻度主義の原理を独自に組み合わせたこの独自の組み合わせにより、動的な設定における適応性とパフォーマンスが向上します。
BOF-UCB アルゴリズムは、逐次ベイジアン更新を利用して未知の回帰パラメーターの事後分布を推論し、その後、頻度主義的なアプローチを採用して、事後分布に対して期待される報酬を最大化することで上限信頼限界 (UCB) を計算します。
BOF-UCB のパフォーマンスの理論的な保証を提供し、強化学習設定における合成データセットと古典的な制御タスクの探索と活用のバランスをとる際のその有効性を実証します。
私たちの結果は、BOF-UCB が既存の方法よりも優れたパフォーマンスを示し、非定常環境における逐次的な意思決定にとって有望なソリューションとなることを示しています。
要約(オリジナル)
We propose a novel Bayesian-Optimistic Frequentist Upper Confidence Bound (BOF-UCB) algorithm for stochastic contextual linear bandits in non-stationary environments. This unique combination of Bayesian and frequentist principles enhances adaptability and performance in dynamic settings. The BOF-UCB algorithm utilizes sequential Bayesian updates to infer the posterior distribution of the unknown regression parameter, and subsequently employs a frequentist approach to compute the Upper Confidence Bound (UCB) by maximizing the expected reward over the posterior distribution. We provide theoretical guarantees of BOF-UCB’s performance and demonstrate its effectiveness in balancing exploration and exploitation on synthetic datasets and classical control tasks in a reinforcement learning setting. Our results show that BOF-UCB outperforms existing methods, making it a promising solution for sequential decision-making in non-stationary environments.
arxiv情報
著者 | Nicklas Werge,Abdullah Akgül,Melih Kandemir |
発行日 | 2023-07-19 13:23:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google