要約
古典的なマルチエージェント補強学習(MARL)方法では、エージェントがグローバルな状態の観察性を享受し、分散型アルゴリズムの開発を防ぎ、スケーラビリティを制限する必要があります。
最近の研究では、崩壊しているエージェント間の影響に関する仮定の下で、各エージェントの地域の観察可能性に置き換えられ、地方分権化とスケーラビリティを可能にすることが示されています。
ただし、このような減衰特性を享受する現実世界のアプリケーションは、信号の崩壊または信号減衰による信号の減衰または信号減衰がワイヤレス通信およびレーダーネットワークの多くの問題の本質的な特徴であるという事実にもかかわらず、露出度の低いままです。
この論文では、信号減衰により、レーダーネットワークでのターゲット検出のパワー割り当てを実行する例示的な特別なケースを考慮することにより、MARLの分散化が可能になることを示します。
これを達成するために、このパワー配分問題の2つの新しい制約されたマルチエージェントマルコフ決定プロセスの定式化を提案し、グローバル値関数と勾配推定のローカル近隣近似を導き出し、対応する誤差境界を確立し、提案された問題を解くための分散型サドルポイントポリシー勾配アルゴリズムを開発します。
私たちのアプローチは、私たちが考慮する特定のレーダーネットワークの問題に向けられていますが、ワイヤレス通信とレーダーネットワークの追加の問題に対する将来の拡張の有用なモデルを提供します。
要約(オリジナル)
Classic multi-agent reinforcement learning (MARL) methods require that agents enjoy global state observability, preventing development of decentralized algorithms and limiting scalability. Recent work has shown that, under assumptions on decaying inter-agent influence, global observability can be replaced by local neighborhood observability at each agent, enabling decentralization and scalability. Real-world applications enjoying such decay properties remain underexplored, however, despite the fact that signal power decay, or signal attenuation, due to path loss is an intrinsic feature of many problems in wireless communications and radar networks. In this paper, we show that signal attenuation enables decentralization in MARL by considering the illustrative special case of performing power allocation for target detection in a radar network. To achieve this, we propose two new constrained multi-agent Markov decision process formulations of this power allocation problem, derive local neighborhood approximations for global value function and gradient estimates and establish corresponding error bounds, and develop decentralized saddle point policy gradient algorithms for solving the proposed problems. Our approach, though oriented towards the specific radar network problem we consider, provides a useful model for future extensions to additional problems in wireless communications and radar networks.
arxiv情報
著者 | Wesley A Suttle,Vipul K Sharma,Brian M Sadler |
発行日 | 2025-05-16 17:14:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google