Differentiable Discrete Event Simulation for Queuing Network Control

要約

キューイング ネットワーク制御は、サービス システム、通信ネットワーク、製造プロセスなどのジョブ処理システムの輻輳を管理するために不可欠です。
強化学習 (RL) 技術の適用への関心が高まっているにもかかわらず、キューイング ネットワーク制御は、高い確率性、大きな状態空間とアクション空間、安定性の欠如など、明確な課題を引き起こしています。
これらの課題に取り組むために、微分可能な離散イベント シミュレーションに基づいたポリシー最適化のためのスケーラブルなフレームワークを提案します。
私たちの主な洞察は、離散イベント ダイナミクスに対して適切に設計された平滑化手法を実装することで、自動微分ソフトウェア (Tensorflow、PyTorch など) と GPU 並列化を使用して、大規模なキューイング ネットワークのパスごとのポリシー勾配を計算できるということです。
広範な実証実験を通じて、私たちのポリシー勾配推定量は、一般的な REINFORCE ベースの推定量よりも数桁正確であることがわかりました。
さらに、ニューラル ネットワーク ポリシーの柔軟性を維持しながら安定性を大幅に向上させる、新しいポリシー アーキテクチャを提案します。
さまざまなスケジューリングおよびアドミッション コントロール タスクにおいて、経路勾配を使用したトレーニング制御ポリシーにより、最先端の RL 手法と比較してサンプル効率が 50 ~ 1000 倍向上することを実証しました。
キューイングに対するこれまでのカスタマイズされたアプローチとは異なり、私たちの方法は、非定常環境で動作するシステムや非指数関数的な到着間隔/サービス時間を持つシステムなどの現実的なシナリオを柔軟に処理できます。

要約(オリジナル)

Queuing network control is essential for managing congestion in job-processing systems such as service systems, communication networks, and manufacturing processes. Despite growing interest in applying reinforcement learning (RL) techniques, queueing network control poses distinct challenges, including high stochasticity, large state and action spaces, and lack of stability. To tackle these challenges, we propose a scalable framework for policy optimization based on differentiable discrete event simulation. Our main insight is that by implementing a well-designed smoothing technique for discrete event dynamics, we can compute pathwise policy gradients for large-scale queueing networks using auto-differentiation software (e.g., Tensorflow, PyTorch) and GPU parallelization. Through extensive empirical experiments, we observe that our policy gradient estimators are several orders of magnitude more accurate than typical REINFORCE-based estimators. In addition, We propose a new policy architecture, which drastically improves stability while maintaining the flexibility of neural-network policies. In a wide variety of scheduling and admission control tasks, we demonstrate that training control policies with pathwise gradients leads to a 50-1000x improvement in sample efficiency over state-of-the-art RL methods. Unlike prior tailored approaches to queueing, our methods can flexibly handle realistic scenarios, including systems operating in non-stationary environments and those with non-exponential interarrival/service times.

arxiv情報

著者 Ethan Che,Jing Dong,Hongseok Namkoong
発行日 2024-09-05 17:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク