Fair Dynamic Spectrum Access via Fully Decentralized Multi-Agent Reinforcement Learning

要約

限られた数の直交周波数帯域を共有するいくつかのソース照明ペアを持つ分散型ワイヤレスネットワークを検討します。
情報筋は、互いに情報を共有せずに、時間の経過とともに、送信(具体的には、バンド選択戦略)を時間をかけて適応させることを学びます。
ソースは、ネットワークサイズや他のソースの伝送戦略の事前知識がないため、独自の送信の結果(つまり、成功または衝突)の結果のみを観察できます。
各ソースの目標は、ネットワーク全体の公平性を目指しながら、独自のスループットを最大化することです。
調整なしで公平性を達成する、完全に分散化された補強学習(RL)ベースのソリューションを提案します。
提案された公正シェアRL(FSRL)ソリューションは、次のとおりです。(i)半適応時間参照と状態増強。
(ii)リスク制御と時差の尤度を活用するアーキテクチャ。
(iii)公平性主導の報酬構造。
さまざまな数のエージェント、さまざまな量の利用可能なスペクトル、ジャマーの存在下、およびアドホック設定で50を超えるネットワーク設定でFSRLを評価します。
シミュレーション結果は、FSRLを文献の一般的なベースラインRLアルゴリズムと比較すると、FSRLがいくつかのソースと単一の周波数帯域を使用して、厳しい設定で最大89.0%(Jainの公平性指数で測定)、平均で48.1%のFirearになることを示唆しています。

要約(オリジナル)

We consider a decentralized wireless network with several source-destination pairs sharing a limited number of orthogonal frequency bands. Sources learn to adapt their transmissions (specifically, their band selection strategy) over time, in a decentralized manner, without sharing information with each other. Sources can only observe the outcome of their own transmissions (i.e., success or collision), having no prior knowledge of the network size or of the transmission strategy of other sources. The goal of each source is to maximize their own throughput while striving for network-wide fairness. We propose a novel fully decentralized Reinforcement Learning (RL)-based solution that achieves fairness without coordination. The proposed Fair Share RL (FSRL) solution combines: (i) state augmentation with a semi-adaptive time reference; (ii) an architecture that leverages risk control and time difference likelihood; and (iii) a fairness-driven reward structure. We evaluate FSRL in more than 50 network settings with different number of agents, different amounts of available spectrum, in the presence of jammers, and in an ad-hoc setting. Simulation results suggest that, when we compare FSRL with a common baseline RL algorithm from the literature, FSRL can be up to 89.0% fairer (as measured by Jain’s fairness index) in stringent settings with several sources and a single frequency band, and 48.1% fairer on average.

arxiv情報

著者 Yubo Zhang,Pedro Botelho,Trevor Gordon,Gil Zussman,Igor Kadota
発行日 2025-03-31 16:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI パーマリンク