An Offline Multi-Agent Reinforcement Learning Framework for Radio Resource Management

要約

オフライン マルチエージェント強化学習 (MARL) は、安全性への懸念、高価なデータ収集、トレーニング間隔の延長、環境とのオンライン相互作用によって生じる高いシグナリング オーバーヘッドなど、オンライン MARL の主要な制限に対処します。
この研究では、ユーザー機器 (UE) の合計レートとテール レートを共同で最大化するために、複数のアクセス ポイント (AP) のスケジューリング ポリシーを最適化することに焦点を当て、無線リソース管理 (RRM) のためのオフライン MARL アルゴリズムを提案します。
私たちは、集中型、独立型、および分散実行を伴う集中型トレーニング (CTDE) という 3 つのトレーニング パラダイムを評価します。
私たちのシミュレーション結果は、提案されたオフライン MARL フレームワークが従来のベースライン アプローチよりも優れたパフォーマンスを示し、合計レートとテール レートの重み付けの組み合わせで 15% 以上の改善を達成したことを示しています。
さらに、CTDE フレームワークは効果的なバランスをとっており、集中型メソッドの計算の複雑さを軽減しながら、独立したトレーニングの非効率性に対処します。
これらの結果は、オフライン MARL が動的ワイヤレス ネットワークにおけるリソース管理のためのスケーラブルで堅牢かつ効率的なソリューションを提供できる可能性を強調しています。

要約(オリジナル)

Offline multi-agent reinforcement learning (MARL) addresses key limitations of online MARL, such as safety concerns, expensive data collection, extended training intervals, and high signaling overhead caused by online interactions with the environment. In this work, we propose an offline MARL algorithm for radio resource management (RRM), focusing on optimizing scheduling policies for multiple access points (APs) to jointly maximize the sum and tail rates of user equipment (UEs). We evaluate three training paradigms: centralized, independent, and centralized training with decentralized execution (CTDE). Our simulation results demonstrate that the proposed offline MARL framework outperforms conventional baseline approaches, achieving over a 15\% improvement in a weighted combination of sum and tail rates. Additionally, the CTDE framework strikes an effective balance, reducing the computational complexity of centralized methods while addressing the inefficiencies of independent training. These results underscore the potential of offline MARL to deliver scalable, robust, and efficient solutions for resource management in dynamic wireless networks.

arxiv情報

著者 Eslam Eldeeb,Hirley Alves
発行日 2025-01-22 16:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク