Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning

要約

マルチエージェント強化学習 (MARL) アルゴリズムは、共同状態アクション空間のサイズが指数関数的に増加するため、効率的な探索という課題に直面しています。
デモンストレーションに基づく学習は、シングル エージェント設定では有益であることが証明されていますが、専門家による共同デモンストレーションを取得することが現実的に困難であるため、MARL への直接適用が妨げられています。
この研究では、個々のエージェント、より広範には異種チーム内の個々のタイプのエージェントに合わせて調整された、パーソナライズされた専門家のデモンストレーションという新しい概念を導入します。
これらのデモンストレーションは、単一エージェントの行動と、協力要素を一切含まずに各エージェントがどのように個人の目標を達成できるかのみに関するものであるため、単純に模倣しても潜在的な衝突により協力を達成することはできません。
この目的のために、我々は、パーソナライズされた専門家のデモンストレーションをガイダンスとして選択的に利用し、エージェントが協力することを学ぶことを可能にするアプローチ、すなわち、パーソナライズされた専門家ガイド付き MARL (PegMARL) を提案します。
このアルゴリズムは 2 つの識別子を利用します。1 つ目は政策行動とデモンストレーションの整合性に基づいてインセンティブを提供し、2 つ目は行動が望ましい目的につながるかどうかに基づいてインセンティブを調整します。
当社は、離散環境と連続環境の両方でパーソナライズされたデモンストレーションを使用して PegMARL を評価します。
この結果は、PegMARL が、最適ではないデモンストレーションが提供された場合でも最適に近いポリシーを学習し、調整されたタスクを解決する際に最先端の MARL アルゴリズムを上回るパフォーマンスを発揮することを示しています。
また、StarCraft シナリオで共同デモンストレーションを活用し、共同トレーニングされていないポリシーからのデモンストレーションであっても効果的に収束する PegMARL の機能も紹介します。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) algorithms face the challenge of efficient exploration due to the exponential increase in the size of the joint state-action space. While demonstration-guided learning has proven beneficial in single-agent settings, its direct applicability to MARL is hindered by the practical difficulty of obtaining joint expert demonstrations. In this work, we introduce a novel concept of personalized expert demonstrations, tailored for each individual agent or, more broadly, each individual type of agent within a heterogeneous team. These demonstrations solely pertain to single-agent behaviors and how each agent can achieve personal goals without encompassing any cooperative elements, thus naively imitating them will not achieve cooperation due to potential conflicts. To this end, we propose an approach that selectively utilizes personalized expert demonstrations as guidance and allows agents to learn to cooperate, namely personalized expert-guided MARL (PegMARL). This algorithm utilizes two discriminators: the first provides incentives based on the alignment of policy behavior with demonstrations, and the second regulates incentives based on whether the behavior leads to the desired objective. We evaluate PegMARL using personalized demonstrations in both discrete and continuous environments. The results demonstrate that PegMARL learns near-optimal policies even when provided with suboptimal demonstrations, and outperforms state-of-the-art MARL algorithms in solving coordinated tasks. We also showcase PegMARL’s capability to leverage joint demonstrations in the StarCraft scenario and converge effectively even with demonstrations from non-co-trained policies.

arxiv情報

著者 Peihong Yu,Manav Mishra,Alec Koppel,Carl Busart,Priya Narayan,Dinesh Manocha,Amrit Bedi,Pratap Tokekar
発行日 2024-03-13 20:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク