Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information

要約

大規模言語モデル (LLM) は、不完全な情報を含む単純なゲームを処理し、マルチエージェントの調整を可能にすることに成功していることを示していますが、複雑で不完全な情報環境、特に英語以外の環境で他のエージェントとの実際的なコラボレーションを促進する機能は、依然として必要です。
探究されること。
この研究では、オープンソースおよび API ベースの LLM によって得られた知識が、不完全な情報の下でエージェントのコラボレーションを必要とする洗練されたテキストベースのゲームに適用できるかどうかを調査し、そのパフォーマンスを他の種類のエージェントを使用して確立されたベースラインと比較します。
我々は、LLM エージェントがゲーム ルール、現在の状態、歴史的コンテキストのみを入力として使用して、さまざまな敵に対して戦略を適応できるようにする Theory of Mind (ToM) 計画手法を提案します。
このカード ゲームのダイナミックで広範囲にわたるアクション スペースの課題を軽減するために、外部ツールが組み込まれています。
私たちの結果は、現在の LLM と最先端の強化学習 (RL) モデルの間にパフォーマンスのギャップが存在するにもかかわらず、LLM がこのゲーム設定で ToM 機能を実証していることを示しています。
これは、敵対するエージェントに対する彼らのパフォーマンスを一貫して向上させており、同盟国と敵対者の行動を理解し、同盟国との協力を確立する彼らの能力を示唆しています。
さらなる調査と理解を促進するために、コードベースをオープンにアクセスできるようにしました。

要約(オリジナル)

Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible.

arxiv情報

著者 Yauwai Yim,Chunkit Chan,Tianyu Shi,Zheye Deng,Wei Fan,Tianshi Zheng,Yangqiu Song
発行日 2024-08-05 15:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク