Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled Mobile Communications

要約

無人航空機 (UAV) は、アドホック通信インフラストラクチャを提供するための空中基地局としてますます使用されています。
静的ノード、2D 軌道、または単一の UAV システムのいずれかを検討する以前の研究成果に基づいて、このホワイト ペーパーでは、地上通信インフラストラクチャがない場合にモバイル ユーザーにワイヤレス通信を提供するための複数の UAV の使用に焦点を当てています。
特に、システムのスループットを最大化するために、UAV の 3D 軌道と NOMA の電力割り当てを共同で最適化します。
まず、重み付けされた K-means ベースのクラスタリング アルゴリズムにより、UAV とユーザーの関連付けが一定の間隔で確立されます。
次に、アクション マスキングを使用した新しい共有ディープ Q ネットワーク (SDQN) のトレーニングの有効性を調べます。
DQN を使用して各 UAV を個別にトレーニングするのとは異なり、SDQN は単一のエージェントではなく複数の UAV の経験を使用することでトレーニング時間を短縮します。
また、SDQN を使用して、異なるアクション スペースを持つマルチエージェント システムをトレーニングできることも示します。
シミュレーション結果は次のことを確認しています。1) 共有 DQN のトレーニングは、最大システム スループット (+20%) とトレーニング時間 (-10%) の点で従来の DQN よりも優れています。
2) 異なる行動空間を持つエージェントを収束させることができ、相互学習アルゴリズムと比較してスループットが 9% 増加します。
3) NOMA を SDQN アーキテクチャと組み合わせることで、ネットワークは既存のベースライン スキームよりも優れた合計レートを実現できます。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) are increasingly used as aerial base stations to provide ad hoc communications infrastructure. Building upon prior research efforts which consider either static nodes, 2D trajectories or single UAV systems, this paper focuses on the use of multiple UAVs for providing wireless communication to mobile users in the absence of terrestrial communications infrastructure. In particular, we jointly optimize UAV 3D trajectory and NOMA power allocation to maximize system throughput. Firstly, a weighted K-means-based clustering algorithm establishes UAV-user associations at regular intervals. The efficacy of training a novel Shared Deep Q-Network (SDQN) with action masking is then explored. Unlike training each UAV separately using DQN, the SDQN reduces training time by using the experiences of multiple UAVs instead of a single agent. We also show that SDQN can be used to train a multi-agent system with differing action spaces. Simulation results confirm that: 1) training a shared DQN outperforms a conventional DQN in terms of maximum system throughput (+20%) and training time (-10%); 2) it can converge for agents with different action spaces, yielding a 9% increase in throughput compared to mutual learning algorithms; and 3) combining NOMA with an SDQN architecture enables the network to achieve a better sum rate compared with existing baseline schemes.

arxiv情報

著者 Danish Rizvi,David Boyle
発行日 2023-03-29 14:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク