Learning from Good Trajectories in Offline Multi-Agent Reinforcement Learning

要約

オフライン マルチエージェント強化学習 (MARL) は、事前に収集されたデータセットから効果的なマルチエージェント ポリシーを学習することを目的としています。これは、現実世界のアプリケーションでマルチエージェント システムを展開するための重要なステップです。
ただし、実際には、マルチエージェントの共同軌跡を生成する個々の動作ポリシーは、通常、パフォーマンスのレベルが異なります。
たとえば、あるエージェントはランダム ポリシーですが、他のエージェントは中程度のポリシーです。
グローバルな報酬を伴う協力ゲームでは、既存のオフライン MARL によって学習された 1 つのエージェントがこのランダムなポリシーを継承することが多く、チーム全体のパフォーマンスが危険にさらされます。
この論文では、エージェントごとの軌跡の多様性を明示的に考慮してオフライン MARL を調査し、この問題に対処するための Shared Individual Trajectories (SIT) と呼ばれる新しいフレームワークを提案します。
具体的には、アテンションベースの報酬分解ネットワークは、微分可能なキー値メモリメカニズムを介してオフラインで各エージェントにクレジットを割り当てます。
次に、これらの分解されたクレジットを使用して、共同のオフライン データセットを再構築し、個々の軌跡を使用して優先順位付けされたエクスペリエンス リプレイを作成します。その後、エージェントは良好な軌跡を共有し、Graph Attention Network (GAT) ベースの批評家を使用してポリシーを保守的にトレーニングできます。
離散制御 (StarCraft II とマルチエージェント粒子環境) と連続制御 (マルチエージェント mujoco) の両方で手法を評価します。
結果は、特に個々の軌跡間のデータ品質の差が大きい場合に、複雑で混合されたオフラインマルチエージェントデータセットで、私たちの方法が大幅に優れた結果を達成することを示しています。

要約(オリジナル)

Offline multi-agent reinforcement learning (MARL) aims to learn effective multi-agent policies from pre-collected datasets, which is an important step toward the deployment of multi-agent systems in real-world applications. However, in practice, each individual behavior policy that generates multi-agent joint trajectories usually has a different level of how well it performs. e.g., an agent is a random policy while other agents are medium policies. In the cooperative game with global reward, one agent learned by existing offline MARL often inherits this random policy, jeopardizing the performance of the entire team. In this paper, we investigate offline MARL with explicit consideration on the diversity of agent-wise trajectories and propose a novel framework called Shared Individual Trajectories (SIT) to address this problem. Specifically, an attention-based reward decomposition network assigns the credit to each agent through a differentiable key-value memory mechanism in an offline manner. These decomposed credits are then used to reconstruct the joint offline datasets into prioritized experience replay with individual trajectories, thereafter agents can share their good trajectories and conservatively train their policies with a graph attention network (GAT) based critic. We evaluate our method in both discrete control (i.e., StarCraft II and multi-agent particle environment) and continuous control (i.e, multi-agent mujoco). The results indicate that our method achieves significantly better results in complex and mixed offline multi-agent datasets, especially when the difference of data quality between individual trajectories is large.

arxiv情報

著者 Qi Tian,Kun Kuang,Furui Liu,Baoxiang Wang
発行日 2023-03-01 14:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク