Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks

要約

この記事では、さまざまな分野の多くのモノのインターネット (IoT) アプリケーションによって特に厳しい制約が課せられるフレームワークである、ワイヤレス ネットワークにおける超信頼性低遅延通信 (URLLC) の問題について説明します。
我々は、厳密な期限を伴う非直交多元接続 (NOMA) アップリンク URLLC スケジューリング問題を解決するために、NOMA-PPO と呼ばれる新しい深層強化学習 (DRL) スケジューリング アルゴリズムを提案します。
NOMA システムにおけるアップリンク URLLC 要件に対処するという課題は、複数のデバイスをスケジュールする可能性によるアクション スペースの組み合わせの複雑さと、IoT 通信の制約と要件を満たすためにアルゴリズムに課す部分的な可観測性制約に関連しています。
スケーラブルであること。
私たちのアプローチには、1) NOMA-URLLC 問題を部分的に観察可能なマルコフ決定プロセス (POMDP) として定式化することと、過去の観察とアクションの十分な統計として機能するエージェント状態の導入が含まれ、POMDP からマルコフ決定への変換が可能になります。
プロセス (MDP);
2) 組み合わせアクション空間を処理するために Proximal Policy Optimization (PPO) アルゴリズムを適応させる。
3) ベイジアン ポリシーの導入により、事前知識を学習エージェントに組み込む。
数値結果は、私たちのアプローチが 3GPP シナリオで従来のマルチアクセス プロトコルや DRL ベンチマークを上回るパフォーマンスを発揮するだけでなく、さまざまなチャネルおよびトラフィック構成の下で堅牢であることを証明し、固有の時間相関を効率的に活用していることを示しています。

要約(オリジナル)

This article addresses the problem of Ultra Reliable Low Latency Communications (URLLC) in wireless networks, a framework with particularly stringent constraints imposed by many Internet of Things (IoT) applications from diverse sectors. We propose a novel Deep Reinforcement Learning (DRL) scheduling algorithm, named NOMA-PPO, to solve the Non-Orthogonal Multiple Access (NOMA) uplink URLLC scheduling problem involving strict deadlines. The challenge of addressing uplink URLLC requirements in NOMA systems is related to the combinatorial complexity of the action space due to the possibility to schedule multiple devices, and to the partial observability constraint that we impose to our algorithm in order to meet the IoT communication constraints and be scalable. Our approach involves 1) formulating the NOMA-URLLC problem as a Partially Observable Markov Decision Process (POMDP) and the introduction of an agent state, serving as a sufficient statistic of past observations and actions, enabling a transformation of the POMDP into a Markov Decision Process (MDP); 2) adapting the Proximal Policy Optimization (PPO) algorithm to handle the combinatorial action space; 3) incorporating prior knowledge into the learning agent with the introduction of a Bayesian policy. Numerical results reveal that not only does our approach outperform traditional multiple access protocols and DRL benchmarks on 3GPP scenarios, but also proves to be robust under various channel and traffic configurations, efficiently exploiting inherent time correlations.

arxiv情報

著者 Benoît-Marie Robaglia,Marceau Coupechoux,Dimitrios Tsilimantos
発行日 2023-08-28 12:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI パーマリンク