Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report

要約

深層強化学習 (DRL) は、確率的キューイング ネットワーク (SQN) のニューラル ネットワーク制御ポリシーをトレーニングするための強力なアプローチを提供します。
ただし、従来の DRL 手法はオフライン シミュレーションまたは静的データセットに依存しているため、SQN 制御における現実世界への応用は制限されています。
この研究では、代替手段としてオンライン深層強化学習ベース制御 (ODRLC) を提案しています。この制御では、インテリジェント エージェントが実際の環境と直接対話し、オンライン対話から最適な制御ポリシーを学習します。
SQN は、ネットワーク内のキューが無制限であるため、状態空間が無制限になるため、ODRLC にとって課題となります。
ニューラル ネットワークは目に見えない状態を外挿するのが苦手であることで知られるため、境界のない状態空間はニューラル ネットワーク ポリシーにとって特に困難です。
この課題に対処するために、既知の安定したポリシーからの戦略的介入を活用して、キュー サイズが制限されたままであることを保証する介入支援フレームワークを提案します。
このフレームワークは、ニューラル ネットワークの学習能力と、SQN の古典的な制御ポリシーの保証された安定性を組み合わせています。
ネットワークの強力な安定性を確保するために、これらの介入支援ポリシーを設計する方法を紹介します。
さらに、我々は介入支援政策のための基本的な DRL 定理を拡張し、SQN の ODRLC に特化した 2 つの実用的なアルゴリズムを開発します。
最後に、実験を通じて、提案したアルゴリズムが古典的な制御アプローチと以前の ODRLC アルゴリズムの両方よりも優れていることを示します。

要約(オリジナル)

Deep Reinforcement Learning (DRL) offers a powerful approach to training neural network control policies for stochastic queuing networks (SQN). However, traditional DRL methods rely on offline simulations or static datasets, limiting their real-world application in SQN control. This work proposes Online Deep Reinforcement Learning-based Controls (ODRLC) as an alternative, where an intelligent agent interacts directly with a real environment and learns an optimal control policy from these online interactions. SQNs present a challenge for ODRLC due to the unbounded nature of the queues within the network resulting in an unbounded state-space. An unbounded state-space is particularly challenging for neural network policies as neural networks are notoriously poor at extrapolating to unseen states. To address this challenge, we propose an intervention-assisted framework that leverages strategic interventions from known stable policies to ensure the queue sizes remain bounded. This framework combines the learning power of neural networks with the guaranteed stability of classical control policies for SQNs. We introduce a method to design these intervention-assisted policies to ensure strong stability of the network. Furthermore, we extend foundational DRL theorems for intervention-assisted policies and develop two practical algorithms specifically for ODRLC of SQNs. Finally, we demonstrate through experiments that our proposed algorithms outperform both classical control approaches and prior ODRLC algorithms.

arxiv情報

著者 Jerrod Wigmore,Brooke Shrader,Eytan Modiano
発行日 2024-04-05 14:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, F.2.2 パーマリンク