Classifying Ambiguous Identities in Hidden-Role Stochastic Games with Multi-Agent Reinforcement Learning

要約

マルチエージェント強化学習(MARL)は、確率的ゲームを解くための学習パラダイムとして普及している。多くのMARL研究では、ゲームに登場するエージェントはあらかじめチームメイトか敵かを定義しておき、エージェント間の関係はゲーム中ずっと固定されたままです。しかし、現実の問題では、エージェント間の関係は事前に不明であったり、動的に変化することが一般的です。多くの複数人による対話は、まず「誰が私のチームなのか」という問いから始まります。この質問は、証券取引所の初日であろうと、幼稚園の初日であろうと、発生する。したがって、不完全な情報と曖昧なアイデンティティに直面するこのような状況に対するポリシーを訓練することは、取り組むべき重要な問題である。本研究では、エージェントが近隣のエージェントのアイデンティティを動的に推論し、タスクを達成するための適切なポリシーを選択できるようにする、新しいアイデンティティ検出強化学習(IDRL)フレームワークを開発する。IDRLフレームワークでは、エージェントの行動を観察することにより、他のエージェントのアイデンティティを推論するための関係ネットワークが構築される。また、危険度ネットワークは、誤認識のリスクを推定するために最適化される。その上で、外部報酬の最大化と正確な識別の必要性をバランスさせる固有報酬を提案する。エージェント間の協力-競争パターンを特定した後、IDRLは既成のMARL手法の一つを適用して方針を学習する。提案手法を評価するために、Red-10カード抜けゲームでの実験を行い、その結果、IDRLは他の最新MARL手法よりも優れた性能を達成することが示されました。印象的なのは、関係ネットワークが人間のトッププレイヤーを持つエージェントのアイデンティティを識別するパー性能を持つことであり、危険ネットワークは不完全な識別のリスクを合理的に回避している。報告されたすべての結果を再現するためのコードは、https://github.com/MR-BENjie/IDRL でオンライン公開されています。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) is a prevalent learning paradigm for solving stochastic games. In most MARL studies, agents in a game are defined as teammates or enemies beforehand, and the relationships among the agents remain fixed throughout the game. However, in real-world problems, the agent relationships are commonly unknown in advance or dynamically changing. Many multi-party interactions start off by asking: who is on my team? This question arises whether it is the first day at the stock exchange or the kindergarten. Therefore, training policies for such situations in the face of imperfect information and ambiguous identities is an important problem that needs to be addressed. In this work, we develop a novel identity detection reinforcement learning (IDRL) framework that allows an agent to dynamically infer the identities of nearby agents and select an appropriate policy to accomplish the task. In the IDRL framework, a relation network is constructed to deduce the identities of other agents by observing the behaviors of the agents. A danger network is optimized to estimate the risk of false-positive identifications. Beyond that, we propose an intrinsic reward that balances the need to maximize external rewards and accurate identification. After identifying the cooperation-competition pattern among the agents, IDRL applies one of the off-the-shelf MARL methods to learn the policy. To evaluate the proposed method, we conduct experiments on Red-10 card-shedding game, and the results show that IDRL achieves superior performance over other state-of-the-art MARL methods. Impressively, the relation network has the par performance to identify the identities of agents with top human players; the danger network reasonably avoids the risk of imperfect identification. The code to reproduce all the reported results is available online at https://github.com/MR-BENjie/IDRL.

arxiv情報

著者 Shijie Han,Siyuan Li,Bo An,Wei Zhao,Peng Liu
発行日 2023-03-06 11:37:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク