Mastering Zero-Shot Interactions in Cooperative and Competitive Simultaneous Games

要約

自己プレーとプランニングの組み合わせは、例えばチェスや囲碁のような逐次ゲームでは大きな成功を収めてきた。しかし、AlphaZeroのようなアルゴリズムを同時ゲームに適応させることは新たな挑戦となる。このようなゲームでは、他のエージェントが異なるナッシュ均衡を選択したり、全く最適なプレイをしない可能性があるため、他のエージェントの同時行動に関する情報の欠落が制限要因となる。したがって、同時ゲームにおいて他のエージェントと相互作用する際の他のエージェントの振る舞いをモデル化することが重要である。この目的のために、我々はアルバトロスを提案する:AlphaZeroは、境界合理的なエージェントの学習と、シミュレーションされたセルフプレイを用いた温度ベースの応答最適化を行う。アルバトロスは滑らかな最良応答ロジット均衡(SBRLE)という新しい均衡概念を学習することで、どのようなプレイ強度のエージェントとも協力と競争を可能にする。我々はアルバトロスの広範な評価を、完全情報同時ゲームの協調・競争ゲームで行った。AlphaZeroとは対照的に、アルバトロスはバトルスネークの競争ゲームにおいて弱いエージェントを利用することができる。さらに、協調ゲームであるOvercookedベンチマークにおいて、従来の技術水準と比較して37.6%の改善を達成した。

要約(オリジナル)

The combination of self-play and planning has achieved great successes in sequential games, for instance in Chess and Go. However, adapting algorithms such as AlphaZero to simultaneous games poses a new challenge. In these games, missing information about concurrent actions of other agents is a limiting factor as they may select different Nash equilibria or do not play optimally at all. Thus, it is vital to model the behavior of the other agents when interacting with them in simultaneous games. To this end, we propose Albatross: AlphaZero for Learning Bounded-rational Agents and Temperature-based Response Optimization using Simulated Self-play. Albatross learns to play the novel equilibrium concept of a Smooth Best Response Logit Equilibrium (SBRLE), which enables cooperation and competition with agents of any playing strength. We perform an extensive evaluation of Albatross on a set of cooperative and competitive simultaneous perfect-information games. In contrast to AlphaZero, Albatross is able to exploit weak agents in the competitive game of Battlesnake. Additionally, it yields an improvement of 37.6% compared to previous state of the art in the cooperative Overcooked benchmark.

arxiv情報

著者 Yannik Mahlau,Frederik Schubert,Bodo Rosenhahn
発行日 2024-02-05 16:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GT パーマリンク