要約
異なる戦略を持つ未知のピア (パートナーまたは対戦相手) に迅速に適応することは、マルチエージェント ゲームにおける重要な課題です。
そのためには、エージェントがピアの戦略を効率的に調査して特定することが重要です。これは、適応において最適な応答を実行するための前提条件だからです。
しかし、未知の同業者の戦略を探ることは、特にゲームが部分的に観察可能で長期にわたる場合には困難です。
この論文では、ピア識別報酬を提案します。これは、複数のエピソードにわたる観察など、歴史的コンテキストにわたってピアの行動パターンをどれだけうまく識別できるかに基づいて学習エージェントに報酬を与えます。
この報酬により、エージェントは、効果的な探索と迅速な適応のためのコンテキスト認識ポリシーを学習するように動機づけられます。つまり、ポリシーが不明な場合は、ピアから有益なフィードバックを積極的に探して収集し、自信がある場合はコンテキストを活用して最適な応答を実行します。
私たちは、ピア エージェントとの競争ゲーム (Kuhn Poker)、協力ゲーム (PO-Overcooked)、または混合ゲーム (Predator-Prey-W) を含む多様なテストベッドでメソッドを評価します。
私たちは、私たちの方法がより積極的な探索行動を誘発し、既存の方法よりも迅速な適応とより良い結果を達成することを実証します。
要約(オリジナル)
Fast adapting to unknown peers (partners or opponents) with different strategies is a key challenge in multi-agent games. To do so, it is crucial for the agent to probe and identify the peer’s strategy efficiently, as this is the prerequisite for carrying out the best response in adaptation. However, exploring the strategies of unknown peers is difficult, especially when the games are partially observable and have a long horizon. In this paper, we propose a peer identification reward, which rewards the learning agent based on how well it can identify the behavior pattern of the peer over the historical context, such as the observation over multiple episodes. This reward motivates the agent to learn a context-aware policy for effective exploration and fast adaptation, i.e., to actively seek and collect informative feedback from peers when uncertain about their policies and to exploit the context to perform the best response when confident. We evaluate our method on diverse testbeds that involve competitive (Kuhn Poker), cooperative (PO-Overcooked), or mixed (Predator-Prey-W) games with peer agents. We demonstrate that our method induces more active exploration behavior, achieving faster adaptation and better outcomes than existing methods.
arxiv情報
著者 | Long Ma,Yuanfei Wang,Fangwei Zhong,Song-Chun Zhu,Yizhou Wang |
発行日 | 2024-08-09 08:05:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google