Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent Deep Reinforcement Learning

要約

ネットワーク スライシングにより、オペレータは共通の物理インフラストラクチャ上で多様なアプリケーションを効率的にサポートできるようになります。
ネットワーク展開の高密度化が進むと、複雑で自明ではないセル間干渉が発生し、ネットワーク スライスのリソース管理を動的に最適化するには不正確な分析モデル以上のものが必要になります。
この論文では、複数の深層強化学習 (DRL) エージェントを使用した DIRP アルゴリズムを開発し、2 つの代替報酬関数に基づいて個々のセルのリソース分割を協調的に最適化し、各スライスの要件を満たすようにします。
それにもかかわらず、既存の DRL アプローチは通常、事前トレーニングされたモデルのパラメーターを転送性の低い特定のネットワーク環境に結び付けるため、大規模なモバイル ネットワークでの実際的な展開に関する懸念が生じます。
そこで、サンプル効率、モデルの再現性、アルゴリズムのスケーラビリティの観点から、異なるネットワーク環境間での DIRP エージェントの転送を容易にする、新しい転送学習支援 DIRP (TL-DIRP) アルゴリズムを設計します。
TL-DIRP アルゴリズムは、まず一般化されたモデルを一元的にトレーニングし、次に「ジェネラリスト」を「スペシャリスト」として各ローカル エージェントに転送し、分散された微調整と実行を行います。
TL-DIRP は 2 つのステップで構成されます: 1) 一般化された分散モデルの集中トレーニング、2) 分散微調整と実行による「ジェネラリスト」を各「スペシャリスト」に転送します。
数値結果は、DIRP が収束の高速化と報酬の増加という点で既存のベースライン アプローチよりも優れているだけでなく、より重要なことに、TL-DIRP は探査コストの削減、収束速度の加速、モデルの再現性の向上によりサービス パフォーマンスを大幅に向上させることを示しています。
トラフィックを意識したベースラインと比較して、TL-DIRP は最悪のスライス サービスのサービス品質 (QoS) の違反率を約 15% 削減し、平均サービス QoS の違反を 8.8% 削減します。

要約(オリジナル)

Network slicing enables operators to efficiently support diverse applications on a common physical infrastructure. The ever-increasing densification of network deployment leads to complex and non-trivial inter-cell interference, which requires more than inaccurate analytic models to dynamically optimize resource management for network slices. In this paper, we develop a DIRP algorithm with multiple deep reinforcement learning (DRL) agents to cooperatively optimize resource partition in individual cells to fulfill the requirements of each slice, based on two alternative reward functions. Nevertheless, existing DRL approaches usually tie the pretrained model parameters to specific network environments with poor transferability, which raises practical deployment concerns in large-scale mobile networks. Hence, we design a novel transfer learning-aided DIRP (TL-DIRP) algorithm to ease the transfer of DIRP agents across different network environments in terms of sample efficiency, model reproducibility, and algorithm scalability. The TL-DIRP algorithm first centrally trains a generalized model and then transfers the ‘generalist’ to each local agent as ‘specialist’ with distributed finetuning and execution. TL-DIRP consists of two steps: 1) centralized training of a generalized distributed model, 2) transferring the ‘generalist’ to each ‘specialist’ with distributed finetuning and execution. The numerical results show that not only DIRP outperforms existing baseline approaches in terms of faster convergence and higher reward, but more importantly, TL-DIRP significantly improves the service performance, with reduced exploration cost, accelerated convergence rate, and enhanced model reproducibility. As compared to a traffic-aware baseline, TL-DIRP provides about 15% less violation ratio of the quality of service (QoS) for the worst slice service and 8.8% less violation on the average service QoS.

arxiv情報

著者 Tianlun Hu,Qi Liao,Qiang Liu,Georg Carle
発行日 2023-06-20 14:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.NI パーマリンク