Learning Flexible Heterogeneous Coordination with Capability-Aware Shared Hypernetworks

要約

協調的な異種マルチエージェントタスクでは、エージェントが相対的な能力を考慮しながら、その動作を効果的に調整する必要があります。
この課題に対する学習ベースのソリューションは、次の 2 つの両極端の間にあります。i) 共有パラメータ法。これは、各エージェントに ID を割り当てることで単一のアーキテクチャ内で多様な動作をエンコードし、サンプル効率は良いですが、動作の多様性が制限されます。
ii) 独立した方法。エージェントごとに個別のポリシーを学習し、より大きな行動の多様性を示しますが、サンプル効率が不十分です。
これまでの研究では、多様性と効率の間の妥協点を考慮して、選択的なパラメータ共有も検討されてきました。
ただし、これらのアプローチはどれも、目に見えないエージェントやチームに効果的に一般化するものではありません。
我々は、ソフトパラメータ共有ハイパーネットワークを介してサンプル効率を維持しながら十分な多様性を生成する、異種マルチエージェント調整のための新しいアーキテクチャであるCapability-Aware Shared Hypernetworks(CASH)を紹介します。
CASH を使用すると、チームは共有エンコーダを使用して共通の戦略を直感的に学習でき、その後、ハイパーネットワークを使用してチームの個人および集団の能力に応じて適応され、目に見えないチームやエージェントに対するゼロショットの一般化が可能になります。
2 つの異種調整タスクと 3 つの標準学習パラダイム (模倣学習、ポリシー上およびポリシー外の強化学習) にわたる実験を示します。
CASH は、学習可能なパラメータの半分未満を使用しているにもかかわらず、未確認のチームやエージェントで評価した場合、成功率とサンプル効率の点でベースライン アーキテクチャを上回るパフォーマンスを発揮できます。

要約(オリジナル)

Cooperative heterogeneous multi-agent tasks require agents to effectively coordinate their behaviors while accounting for their relative capabilities. Learning-based solutions to this challenge span between two extremes: i) shared-parameter methods, which encode diverse behaviors within a single architecture by assigning an ID to each agent, and are sample-efficient but result in limited behavioral diversity; ii) independent methods, which learn a separate policy for each agent, and show greater behavioral diversity but lack sample-efficiency. Prior work has also explored selective parameter-sharing, allowing for a compromise between diversity and efficiency. None of these approaches, however, effectively generalize to unseen agents or teams. We present Capability-Aware Shared Hypernetworks (CASH), a novel architecture for heterogeneous multi-agent coordination that generates sufficient diversity while maintaining sample-efficiency via soft parameter-sharing hypernetworks. Intuitively, CASH allows the team to learn common strategies using a shared encoder, which are then adapted according to the team’s individual and collective capabilities with a hypernetwork, allowing for zero-shot generalization to unseen teams and agents. We present experiments across two heterogeneous coordination tasks and three standard learning paradigms (imitation learning, on- and off-policy reinforcement learning). CASH is able to outperform baseline architectures in success rate and sample efficiency when evaluated on unseen teams and agents despite using less than half of the learnable parameters.

arxiv情報

著者 Kevin Fu,Pierce Howell,Shalin Jain,Harish Ravichandar
発行日 2025-01-10 15:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク