HyperMARL: Adaptive Hypernetworks for Multi-Agent RL


マルチエージェント強化学習 (MARL) では、個人の専門化と共有行動のバランスをとることが重要な課題です。
完全パラメータ共有 (FuPS) はサンプル効率を向上させますが、必要に応じて多様な動作を学習するのに苦労します。一方、パラメータ共有なし (NoPS) は多様性を可能にしますが、計算コストが高く、サンプル効率が低くなります。
これらの課題に対処するために、ハイパーネットワークを使用して効率と専門化のバランスをとる新しいアプローチである HyperMARL を導入します。
HyperMARL は、エージェント固有のアクターおよび批評家のパラメーターを生成し、学習目標を変更したり、最適な多様性に関する事前知識を必要とせずに、エージェントが必要に応じて多様なまたは同種の行動を適応的に示すことができるようにします。
さらに、HyperMARL は、エージェント固有の勾配と状態ベースの勾配を分離します。これは経験的にポリシー勾配の分散の減少と相関しており、多様な動作を捕捉する能力についての洞察を提供する可能性があります。
均質、異種、または混合の動作を必要とする MARL ベンチマーク全体で、HyperMARL は一貫して FuPS、NoPS、および多様性に重点を置いた手法と同等またはそれを上回り、共有アーキテクチャで NoPS レベルの多様性を実現します。
これらの結果は、MARL における専門化と共有動作の間のトレードオフに対する多用途のアプローチとしてのハイパーネットワークの可能性を浮き彫りにしています。


Balancing individual specialisation and shared behaviours is a critical challenge in multi-agent reinforcement learning (MARL). Existing methods typically focus on encouraging diversity or leveraging shared representations. Full parameter sharing (FuPS) improves sample efficiency but struggles to learn diverse behaviours when required, while no parameter sharing (NoPS) enables diversity but is computationally expensive and sample inefficient. To address these challenges, we introduce HyperMARL, a novel approach using hypernetworks to balance efficiency and specialisation. HyperMARL generates agent-specific actor and critic parameters, enabling agents to adaptively exhibit diverse or homogeneous behaviours as needed, without modifying the learning objective or requiring prior knowledge of the optimal diversity. Furthermore, HyperMARL decouples agent-specific and state-based gradients, which empirically correlates with reduced policy gradient variance, potentially offering insights into its ability to capture diverse behaviours. Across MARL benchmarks requiring homogeneous, heterogeneous, or mixed behaviours, HyperMARL consistently matches or outperforms FuPS, NoPS, and diversity-focused methods, achieving NoPS-level diversity with a shared architecture. These results highlight the potential of hypernetworks as a versatile approach to the trade-off between specialisation and shared behaviours in MARL.


著者 Kale-ab Abebe Tessera,Arrasy Rahman,Stefano V. Albrecht
発行日 2024-12-05 15:09:51+00:00
