Online Frequency Scheduling by Learning Parallel Actions

要約

無線リソース管理は、新しいアプリケーションが利用可能なリソースをめぐってユーザー間で激しい競争を引き起こす将来の 6G ネットワークにおける課題となる課題です。
この研究では、マルチユーザー MIMO システムにおける周波数スケジューリングの問題を検討します。
同じサブバンドでの同時送信を可能にしながら、周波数リソースを一連のユーザーに割り当てる必要があります。
従来の方法では、関連するすべての制約や不確実性に対処するには不十分ですが、強化学習は、そのような複雑な環境に対して最適に近い解決策を直接学習できます。
ただし、スケジューリングの問題には、ユーザーとサブバンドのすべての組み合わせを考慮した膨大なアクション スペースがあるため、すぐに使用できるアルゴリズムを直接使用することはできません。
この研究では、サブバンドにわたるアクション分岐に基づくスケジューラを提案します。これは、並列決定機能を備えたディープ Q ラーニング アーキテクチャです。
サブバンドは、相関性はあるもののローカルな意思決定ポリシーを学習し、全体としてグローバルな報酬を最適化します。
サブバンドの数に応じてアーキテクチャのスケーリングを改善するために、学習するパラメーターの数を減らすバリエーション (ユニブランチ、グラフ ニューラル ネットワーク ベース) を提案します。
提案されたアーキテクチャの並列意思決定により、実際のシステムでの短い推論時間の要件を満たすことができます。
さらに、ディープ Q ラーニング アプローチにより、導入後のオンライン微調整が可能になり、シミュレーションと実際のギャップを埋めることができます。
提案されたアーキテクチャは、競争力のあるパフォーマンスと進化する環境へのオンライン適応の可能性を示す文献からの関連ベースラインに対して評価されます。

要約(オリジナル)

Radio Resource Management is a challenging topic in future 6G networks where novel applications create strong competition among the users for the available resources. In this work we consider the frequency scheduling problem in a multi-user MIMO system. Frequency resources need to be assigned to a set of users while allowing for concurrent transmissions in the same sub-band. Traditional methods are insufficient to cope with all the involved constraints and uncertainties, whereas reinforcement learning can directly learn near-optimal solutions for such complex environments. However, the scheduling problem has an enormous action space accounting for all the combinations of users and sub-bands, so out-of-the-box algorithms cannot be used directly. In this work, we propose a scheduler based on action-branching over sub-bands, which is a deep Q-learning architecture with parallel decision capabilities. The sub-bands learn correlated but local decision policies and altogether they optimize a global reward. To improve the scaling of the architecture with the number of sub-bands, we propose variations (Unibranch, Graph Neural Network-based) that reduce the number of parameters to learn. The parallel decision making of the proposed architecture allows to meet short inference time requirements in real systems. Furthermore, the deep Q-learning approach permits online fine-tuning after deployment to bridge the sim-to-real gap. The proposed architectures are evaluated against relevant baselines from the literature showing competitive performance and possibilities of online adaptation to evolving environments.

arxiv情報

著者 Anastasios Giovanidis,Mathieu Leconte,Sabrine Aroua,Tor Kvernvik,David Sandberg
発行日 2024-06-07 16:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.NI パーマリンク