要約
多くのマルチアーム バンディット アルゴリズムは、すべてのアームの報酬がラウンド全体で一定であることを前提としていますが、この前提は多くの現実世界のシナリオでは当てはまりません。
この論文では、報酬が最後に腕を引っ張られてからの経過ラウンド数に依存する、山賊を回復する設定を検討しています (Pike-Burke & Grunewalder, 2019)。
我々は、ラウンドを状態として扱う、状態分離 SARSA (SS-SARSA) アルゴリズムと呼ばれる、この設定に合わせた新しい強化学習 (RL) アルゴリズムを提案します。
SS-SARSA アルゴリズムは、大規模な RL 問題の組み合わせ問題に悩まされることが多い Q 学習/SARSA に必要な状態の組み合わせの数を減らすことで、効率的な学習を実現します。
さらに、報酬構造について最小限の仮定を置き、計算の複雑さを軽減します。
さらに、穏やかな仮定の下で最適なポリシーへの漸近収束を証明します。
シミュレーション研究では、さまざまな設定にわたってアルゴリズムの優れたパフォーマンスが実証されています。
要約(オリジナル)
While many multi-armed bandit algorithms assume that rewards for all arms are constant across rounds, this assumption does not hold in many real-world scenarios. This paper considers the setting of recovering bandits (Pike-Burke & Grunewalder, 2019), where the reward depends on the number of rounds elapsed since the last time an arm was pulled. We propose a new reinforcement learning (RL) algorithm tailored to this setting, named the State-Separate SARSA (SS-SARSA) algorithm, which treats rounds as states. The SS-SARSA algorithm achieves efficient learning by reducing the number of state combinations required for Q-learning/SARSA, which often suffers from combinatorial issues for large-scale RL problems. Additionally, it makes minimal assumptions about the reward structure and offers lower computational complexity. Furthermore, we prove asymptotic convergence to an optimal policy under mild assumptions. Simulation studies demonstrate the superior performance of our algorithm across various settings.
arxiv情報
著者 | Yuto Tanimoto,Kenji Fukumizu |
発行日 | 2024-03-18 07:14:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google