Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT4

要約

すべての要素がすべてのプレイヤーに知られている完全情報ゲームとは異なり、不完全情報ゲームは、不確実または不完全な情報の下での現実世界の意思決定の複雑さをエミュレートします。
GPT-4 は、大規模な受動的データでトレーニングされた大規模言語モデル (LLM) における最近の画期的な技術であり、その知識検索能力と推論能力で注目に値します。
この論文では、GPT-4 で学習された知識の不完全情報ゲームへの適用可能性を詳しく掘り下げます。
これを達成するために、不完全情報ゲームで実行するために GPT-4 の機能を活用する革新的なエージェントである \textbf{Suspicion-Agent} を導入します。
さまざまな機能を実現するための適切な迅速なエンジニアリングにより、GPT-4 ベースの Suspision-Agent は、さまざまな不完全な情報カード ゲームにわたって驚くべき適応性を示します。
重要なのは、GPT-4 は強力な高次精神理論 (ToM) 能力を示しており、これは他人を理解し、他人の行動に意図的に影響を与えることができることを意味します。
これを活用して、GPT-4 がさまざまな対戦相手と適切に対戦し、必要に応じてゲームプレイ スタイルを適応させながら、入力としてゲーム ルールと観察の説明のみを必要とする計画戦略を設計します。
実験では、3 つの異なる不完全情報ゲームにわたって Suspicion-Agent の能力を定性的に示し、それを Leduc Hold’em で定量的に評価しました。
結果は、Suspicion-Agent が、特別なトレーニングやサンプルを必要とせずに、不完全な情報ゲーム用に設計された従来のアルゴリズムを潜在的に上回るパフォーマンスを発揮できることを示しています。
コミュニティ内でのより深い洞察を奨励し促進するために、私たちはゲーム関連のデータを一般公開します。

要約(オリジナル)

Unlike perfect information games, where all elements are known to every player, imperfect information games emulate the real-world complexities of decision-making under uncertain or incomplete information. GPT-4, the recent breakthrough in large language models (LLMs) trained on massive passive data, is notable for its knowledge retrieval and reasoning abilities. This paper delves into the applicability of GPT-4’s learned knowledge for imperfect information games. To achieve this, we introduce \textbf{Suspicion-Agent}, an innovative agent that leverages GPT-4’s capabilities for performing in imperfect information games. With proper prompt engineering to achieve different functions, Suspicion-Agent based on GPT-4 demonstrates remarkable adaptability across a range of imperfect information card games. Importantly, GPT-4 displays a strong high-order theory of mind (ToM) capacity, meaning it can understand others and intentionally impact others’ behavior. Leveraging this, we design a planning strategy that enables GPT-4 to competently play against different opponents, adapting its gameplay style as needed, while requiring only the game rules and descriptions of observations as input. In the experiments, we qualitatively showcase the capabilities of Suspicion-Agent across three different imperfect information games and then quantitatively evaluate it in Leduc Hold’em. The results show that Suspicion-Agent can potentially outperform traditional algorithms designed for imperfect information games, without any specialized training or examples. In order to encourage and foster deeper insights within the community, we make our game-related data publicly available.

arxiv情報

著者 Jiaxian Guo,Bo Yang,Paul Yoo,Yuchen Lin,Yusuke Iwasawa,Yutaka Matsuo
発行日 2023-09-29 14:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク