要約
マルチエージェントの協調行動を学習するための現在のアプローチは、比較的制限された設定を仮定している。標準的な完全協調マルチエージェント強化学習では、学習アルゴリズムはシナリオ中の$textit{全}$エージェントを制御するが、アドホックチームワークでは、学習アルゴリズムは通常シナリオ中の$textit{単}$エージェントのみを制御する。しかし、現実世界における多くの協調設定は、もっと制約が少ない。例えば、自律走行シナリオでは、ある会社が自社の車を同じ学習アルゴリズムで訓練するかもしれないが、一旦道路に出ると、これらの車は他社の車と協力しなければならない。協調学習法が最適に対処できるシナリオのクラスを拡大するために、我々は$N$エージェントアドホックチームワーク(NAHT)を導入する。本稿では、この問題を定式化し、エージェントモデリングによる政策最適化(Policy Optimization with Agent Modelling: POAM)アルゴリズムを提案する。POAMは、NAHT問題に対する政策勾配、マルチエージェント強化学習アプローチであり、チームメイトの行動の表現を学習することにより、多様なチームメイトの行動への適応を可能にする。マルチエージェント粒子環境とStarCraft IIのタスクを用いた実証評価により、POAMはベースラインアプローチと比較して協調タスクのリターンを改善し、未知のチームメイトへの分布外汎化を可能にすることが示される。
要約(オリジナル)
Current approaches to learning cooperative multi-agent behaviors assume relatively restrictive settings. In standard fully cooperative multi-agent reinforcement learning, the learning algorithm controls $\textit{all}$ agents in the scenario, while in ad hoc teamwork, the learning algorithm usually assumes control over only a $\textit{single}$ agent in the scenario. However, many cooperative settings in the real world are much less restrictive. For example, in an autonomous driving scenario, a company might train its cars with the same learning algorithm, yet once on the road, these cars must cooperate with cars from another company. Towards expanding the class of scenarios that cooperative learning methods may optimally address, we introduce $N$-agent ad hoc teamwork (NAHT), where a set of autonomous agents must interact and cooperate with dynamically varying numbers and types of teammates. This paper formalizes the problem, and proposes the Policy Optimization with Agent Modelling (POAM) algorithm. POAM is a policy gradient, multi-agent reinforcement learning approach to the NAHT problem, that enables adaptation to diverse teammate behaviors by learning representations of teammate behaviors. Empirical evaluation on tasks from the multi-agent particle environment and StarCraft II shows that POAM improves cooperative task returns compared to baseline approaches, and enables out-of-distribution generalization to unseen teammates.
arxiv情報
著者 | Caroline Wang,Arrasy Rahman,Ishan Durugkar,Elad Liebman,Peter Stone |
発行日 | 2024-10-04 16:08:52+00:00 |
arxivサイト | arxiv_id(pdf) |