Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation

要約

現実世界のマルチエージェントシステム(質量)では、観測の遅延は遍在しており、エージェントが環境の真の状態に基づいて意思決定を行うことを妨げます。
個々のエージェントの局所観察は、多くの場合、環境内の他のエージェントまたは動的エンティティからの複数のコンポーネントで構成されています。
さまざまな遅延特性を持つこれらの離散観察成分は、マルチエージェント補強学習(MARL)に大きな課題をもたらします。
このホワイトペーパーでは、標準のDEC-POMDPを拡張することにより、最初に分散型の確率的個々の遅延部分を部分的に観察可能なマルコフ決定プロセス(DSID-POMDP)を定式化します。
次に、確率的な個々の遅延に対処するためのMARLトレーニングフレームワークであるRainbow Delay補償(RDC)と、その構成モジュールに推奨される実装を提案します。
MPEやSMACを含む標準のMARLベンチマークを使用して、DSID-POMDPの観測生成パターンを実装します。
実験では、ベースラインMARLメソッドが固定されていない遅延の下で深刻なパフォーマンスの低下を受けることが示されています。
RDC強化アプローチはこの問題を軽減し、一般化能力を維持しながら、特定の遅延シナリオで理想的な遅延パフォーマンスを著しく達成します。
私たちの作品は、マルチエージェント遅延観測問題に関する新しい視点を提供し、効果的なソリューションフレームワークを提供します。

要約(オリジナル)

In real-world multi-agent systems (MASs), observation delays are ubiquitous, preventing agents from making decisions based on the environment’s true state. An individual agent’s local observation often consists of multiple components from other agents or dynamic entities in the environment. These discrete observation components with varying delay characteristics pose significant challenges for multi-agent reinforcement learning (MARL). In this paper, we first formulate the decentralized stochastic individual delay partially observable Markov decision process (DSID-POMDP) by extending the standard Dec-POMDP. We then propose the Rainbow Delay Compensation (RDC), a MARL training framework for addressing stochastic individual delays, along with recommended implementations for its constituent modules. We implement the DSID-POMDP’s observation generation pattern using standard MARL benchmarks, including MPE and SMAC. Experiments demonstrate that baseline MARL methods suffer severe performance degradation under fixed and unfixed delays. The RDC-enhanced approach mitigates this issue, remarkably achieving ideal delay-free performance in certain delay scenarios while maintaining generalization capability. Our work provides a novel perspective on multi-agent delayed observation problems and offers an effective solution framework.

arxiv情報

著者 Songchen Fu,Siang Chen,Shaojing Zhao,Letian Bai,Ta Li,Yonghong Yan
発行日 2025-05-06 14:47:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T20, 68T42, cs.AI, cs.MA, I.2 パーマリンク