要約
複数の無人航空機 (UAV) 支援のダウンリンク通信では、UAV 基地局 (UAV BS) が未知の環境で軌道設計とリソース割り当てを実現することが困難です。
通信ネットワークにおける UAV BS 間の協力と競争は、マルコフ ゲーム問題を引き起こします。
マルチエージェント強化学習は、上記の意思決定にとって重要なソリューションです。
ただし、システムの不安定性や履歴データの利用率の低さなど、アプリケーションを制限する一般的な問題がまだ多くあります。
この論文では、マルチ UAV 支援通信問題を解決するために、新しいグラフ注意マルチエージェント信頼領域 (GA-MATR) 強化学習フレームワークを提案します。
グラフリカレントネットワークは、通信ネットワークの複雑なトポロジーを処理および分析し、観測情報から有用な情報やパターンを抽出するために導入されています。
アテンション メカニズムは、伝達される情報に追加の重み付けを提供するため、批評家ネットワークは UAV BS の動作の価値を正確に評価できます。
これにより、より信頼性の高いフィードバック信号が提供され、アクター ネットワークが戦略をより効果的に更新するのに役立ちます。
アブレーションシミュレーションは、提案されたアプローチがベースライン上で改善された収束を達成することを示しています。
UAV BS は、最大の累積報酬を達成するために最適な通信戦略を学習します。
さらに、単調収束を伴うマルチエージェント信頼領域法は、マルチ UAV 支援通信マルコフ ゲームの推定ナッシュ均衡を提供します。
要約(オリジナル)
In the multiple unmanned aerial vehicle (UAV)- assisted downlink communication, it is challenging for UAV base stations (UAV BSs) to realize trajectory design and resource assignment in unknown environments. The cooperation and competition between UAV BSs in the communication network leads to a Markov game problem. Multi-agent reinforcement learning is a significant solution for the above decision-making. However, there are still many common issues, such as the instability of the system and low utilization of historical data, that limit its application. In this paper, a novel graph-attention multi-agent trust region (GA-MATR) reinforcement learning framework is proposed to solve the multi-UAV assisted communication problem. Graph recurrent network is introduced to process and analyze complex topology of the communication network, so as to extract useful information and patterns from observational information. The attention mechanism provides additional weighting for conveyed information, so that the critic network can accurately evaluate the value of behavior for UAV BSs. This provides more reliable feedback signals and helps the actor network update the strategy more effectively. Ablation simulations indicate that the proposed approach attains improved convergence over the baselines. UAV BSs learn the optimal communication strategies to achieve their maximum cumulative rewards. Additionally, multi-agent trust region method with monotonic convergence provides an estimated Nash equilibrium for the multi-UAV assisted communication Markov game.
arxiv情報
著者 | Zikai Feng,Di Wu,Mengxing Huang,Chau Yuen |
発行日 | 2024-01-31 14:37:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google