要約
本論文では、部分的に観測可能な待ち行列ネットワークにおける最適な入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。具体的には、ネットワークからの到着時間と出発時間のみが観測可能であり、最適性とは無限地平における平均保留/棄却コストを指す。 部分観測可能マルコフ決定過程(POMDP)における強化学習は、一般に法外に高価であるが、我々のアルゴリズムは、ネットワーク内のジョブの最大数$S$にサブ線形に依存する後悔しか持たないことを示す。特に、既存の後悔解析とは対照的に、我々の後悔境界は基礎となるマルコフ決定過程(MDP)の直径に依存しない。 我々のアプローチの新規性は、閉積形の待ち行列ネットワークに対するノートンの等価定理と、生死過程の構造を持つMDPに対する効率的な強化学習アルゴリズムを活用することである。
要約(オリジナル)
We present an efficient reinforcement learning algorithm that learns the optimal admission control policy in a partially observable queueing network. Specifically, only the arrival and departure times from the network are observable, and optimality refers to the average holding/rejection cost in infinite horizon. While reinforcement learning in Partially Observable Markov Decision Processes (POMDP) is prohibitively expensive in general, we show that our algorithm has a regret that only depends sub-linearly on the maximal number of jobs in the network, $S$. In particular, in contrast with existing regret analyses, our regret bound does not depend on the diameter of the underlying Markov Decision Process (MDP), which in most queueing systems is at least exponential in $S$. The novelty of our approach is to leverage Norton’s equivalent theorem for closed product-form queueing networks and an efficient reinforcement learning algorithm for MDPs with the structure of birth-and-death processes.
arxiv情報
著者 | Jonatha Anselmi,Bruno Gaujal,Louis-Sébastien Rebuffi |
発行日 | 2023-08-04 15:40:23+00:00 |
arxivサイト | arxiv_id(pdf) |