要約
インスタント メッセージング、ライブ ストリーミング、データ センター管理など、現実のさまざまなアプリケーションでは、マルチユーザーの遅延を制限した効果的なスケジューリングが不可欠です。
これらのシナリオでは、スケジューラーは、システムのダイナミクスに関する事前の知識がなくても、遅延とリソースの制約を満たすためにリアルタイムの決定を下す必要があります。システムのダイナミクスは、多くの場合、時間によって変化し、推定が困難です。
現在の学習ベースの方法では通常、トレーニング段階で実際のシステムとの対話が必要ですが、システムのパフォーマンスが大幅に低下し、多額のサービスコストが発生する可能性があるため、これは困難または非現実的な場合があります。
これらの課題に対処するために、私たちは \underline{C}ritic Guide と \underline{D}iffusion Generation (SOCD) を使用した \underline{S}cheduling By \underline{O}ffline Learning という新しいオフライン強化学習ベースのアルゴリズムを提案します。
、事前に収集された \emph{オフライン データ} から純粋に効率的なスケジューリング ポリシーを学習します。
SOCD は、普及ベースの政策ネットワークを革新的に採用し、政策ガイダンスのためのサンプリングフリーの批評家ネットワークによって補完されています。
ラグランジュ乗数最適化をオフライン強化学習に統合することにより、SOCD は利用可能なデータセットのみから高品質の制約認識ポリシーを効果的にトレーニングし、システムとのオンライン対話の必要性を排除します。
実験結果は、SOCD が部分的に観測可能な環境や大規模な環境を含むさまざまなシステム ダイナミクスに耐性があり、既存の方法と比較して優れたパフォーマンスを実現することを示しています。
要約(オリジナル)
Effective multi-user delay-constrained scheduling is crucial in various real-world applications, such as instant messaging, live streaming, and data center management. In these scenarios, schedulers must make real-time decisions to satisfy both delay and resource constraints without prior knowledge of system dynamics, which are often time-varying and challenging to estimate. Current learning-based methods typically require interactions with actual systems during the training stage, which can be difficult or impractical, as it is capable of significantly degrading system performance and incurring substantial service costs. To address these challenges, we propose a novel offline reinforcement learning-based algorithm, named \underline{S}cheduling By \underline{O}ffline Learning with \underline{C}ritic Guidance and \underline{D}iffusion Generation (SOCD), to learn efficient scheduling policies purely from pre-collected \emph{offline data}. SOCD innovatively employs a diffusion-based policy network, complemented by a sampling-free critic network for policy guidance. By integrating the Lagrangian multiplier optimization into the offline reinforcement learning, SOCD effectively trains high-quality constraint-aware policies exclusively from available datasets, eliminating the need for online interactions with the system. Experimental results demonstrate that SOCD is resilient to various system dynamics, including partially observable and large-scale environments, and delivers superior performance compared to existing methods.
arxiv情報
著者 | Zhuoran Li,Ruishuo Chen,Hai Zhong,Longbo Huang |
発行日 | 2025-01-22 15:13:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google