Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

要約

マルチエージェント強化学習 (MARL) アルゴリズムの最近の成功にもかかわらず、動機が混在する環境で協力プレイヤーに効率的に適応することは依然として大きな課題です。
実現可能なアプローチの 1 つは、協力プレイヤーの特性の推測に基づいて、協力プレイヤーの行動を階層的にモデル化することです。
ただし、これらの方法では、効率的な推論と推論された情報の利用が困難になることがよくあります。
これらの問題に対処するために、私たちは、動機が混在する環境で目に見えないポリシーへの少数の適応を可能にする新しいマルチエージェント意思決定アルゴリズムである階層的相手モデリングと計画 (HOP) を提案します。
HOP は 2 つのモジュールで階層的に構成されています。1 つは他者の目標を推測し、対応する目標条件付きポリシーを学習する対戦相手モデリング モジュール、もう 1 つはモンテカルロ ツリー検索 (MCTS) を使用して最適な応答を特定する計画モジュールです。
私たちのアプローチは、エピソード全体およびエピソード内で他者の目標についての信念を更新し、対戦相手のモデリング モジュールからの情報を計画のガイドに使用することによって効率を向上させます。
実験結果は、動機が混在する環境において、HOP がさまざまな目に見えないエージェントと対話するときに優れた少数ショット適応能力を示し、セルフプレイ シナリオで優れていることを示しています。
さらに、私たちの実験中にソーシャルインテリジェンスが出現したことは、複雑なマルチエージェント環境における私たちのアプローチの可能性を強調しています。

要約(オリジナル)

Despite the recent successes of multi-agent reinforcement learning (MARL) algorithms, efficiently adapting to co-players in mixed-motive environments remains a significant challenge. One feasible approach is to hierarchically model co-players’ behavior based on inferring their characteristics. However, these methods often encounter difficulties in efficient reasoning and utilization of inferred information. To address these issues, we propose Hierarchical Opponent modeling and Planning (HOP), a novel multi-agent decision-making algorithm that enables few-shot adaptation to unseen policies in mixed-motive environments. HOP is hierarchically composed of two modules: an opponent modeling module that infers others’ goals and learns corresponding goal-conditioned policies, and a planning module that employs Monte Carlo Tree Search (MCTS) to identify the best response. Our approach improves efficiency by updating beliefs about others’ goals both across and within episodes and by using information from the opponent modeling module to guide planning. Experimental results demonstrate that in mixed-motive environments, HOP exhibits superior few-shot adaptation capabilities when interacting with various unseen agents, and excels in self-play scenarios. Furthermore, the emergence of social intelligence during our experiments underscores the potential of our approach in complex multi-agent environments.

arxiv情報

著者 Yizhe Huang,Anji Liu,Fanqi Kong,Yaodong Yang,Song-Chun Zhu,Xue Feng
発行日 2024-07-12 15:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク