Multi-Agent Reinforcement Learning with Common Policy for Antenna Tilt Optimization

要約

この論文では、最適化対象のセルと周囲のセルの両方のパフォーマンスに影響を与えるセル パラメータを調整することにより、ワイヤレス ネットワークを最適化する方法を紹介します。
この方法では、共通のポリシーを共有し、隣接セルからの情報を考慮して状態と報酬を決定する複数の強化学習エージェントを使用します。
学習の初期段階でネットワークのパフォーマンスが損なわれないようにするために、エージェントはオフライン学習の初期段階で事前トレーニングされます。
このフェーズでは、静的ネットワーク シミュレーターからのフィードバックを使用し、さまざまなシナリオを考慮して、初期ポリシーが取得されます。
最後に、エージェントは小さな増分変更を提案することでテスト ネットワークのセル パラメータをインテリジェントに調整し、ネットワークを最適な構成に向けてゆっくりと導きます。
エージェントは、トレーニング前のフェーズでシミュレーターで得た経験を使用して最適な変更を提案しますが、各変更後に現在のネットワークの読み取り値から学習を続けることもできます。
結果は、提案されたアプローチが、リモート アンテナのチルト最適化に適用された場合に、エキスパート システム ベースの方法によってすでに提供されているパフォーマンス ゲインを大幅に改善する方法を示しています。
このアプローチの大きな利点は、状態と報酬に隣接するセルからの情報が組み込まれない同様の方法と比較した場合に実際に観察されます。

要約(オリジナル)

This paper presents a method for optimizing wireless networks by adjusting cell parameters that affect both the performance of the cell being optimized and the surrounding cells. The method uses multiple reinforcement learning agents that share a common policy and take into account information from neighboring cells to determine the state and reward. In order to avoid impairing network performance during the initial stages of learning, agents are pre-trained in an earlier phase of offline learning. During this phase, an initial policy is obtained using feedback from a static network simulator and considering a wide variety of scenarios. Finally, agents can intelligently tune the cell parameters of a test network by suggesting small incremental changes, slowly guiding the network toward an optimal configuration. The agents propose optimal changes using the experience gained with the simulator in the pre-training phase, but they can also continue to learn from current network readings after each change. The results show how the proposed approach significantly improves the performance gains already provided by expert system-based methods when applied to remote antenna tilt optimization. The significant gains of this approach have truly been observed when compared with a similar method in which the state and reward do not incorporate information from neighboring cells.

arxiv情報

著者 Adriano Mendo,Jose Outes-Carnero,Yak Ng-Molina,Juan Ramiro-Moreno
発行日 2023-05-24 15:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.SY, eess.SY パーマリンク