AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game

要約

戦略的社会演繹ゲームは、言語モデルの理解と推論スキルを評価するための貴重なテストベッドとして機能し、社会科学、人工知能、戦略的ゲームについての重要な洞察を提供します。
この論文は、シミュレートされた人間の行動を研究するためのツールとして \textit{Among Us} を利用して、シミュレートされた環境で人間の行動のプロキシを作成することに焦点を当てています。
この研究では、\textit{Among Us} のダイナミクスを反映する、AmongAgent という名前のテキストベースのゲーム環境が導入されています。
プレイヤーは宇宙船の乗組員として行動し、船を妨害する詐欺師を特定し、乗組員を排除するという任務を負います。
この環境内で、シミュレートされた言語エージェントの動作が分析されます。
この実験には、クルーメイトと詐欺師の人格原型のさまざまな構成を特徴とするさまざまなゲーム シーケンスが含まれます。
私たちの研究は、最先端の大規模言語モデル (LLM) がゲームのルールを効果的に把握し、現在のコンテキストに基づいて意思決定を行えることを示しています。
この研究は、不完全な情報と複雑なアクション空間を含む目標指向のゲームにおける LLM のさらなる探索を促進することを目的としています。これらの設定は、社会主導のシナリオで言語モデルのパフォーマンスを評価する貴重な機会を提供するからです。

要約(オリジナル)

Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with \textit{Among Us} utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgent, that mirrors the dynamics of \textit{Among Us}. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.

arxiv情報

著者 Yizhou Chi,Lingjun Mao,Zineng Tang
発行日 2024-07-23 14:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク