MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind

要約

大規模な言語モデル(LLM)エージェントは、戦略的推論と社会的欺ceptionが不可欠な狼男のようなソーシャル控除ゲーム(SDG)の印象的な能力を実証しています。
ただし、現在のアプローチは、人間が自然に通信するために自然に使用する表情や声のトーンなどの重要なマルチモーダルキューを無視して、テキスト情報に限定されています。
さらに、既存のSDGエージェントは、主に、他の人が自分自身や仲間のプレイヤーをどのように認識しているかをモデル化することなく、他のプレイヤーのアイデンティティを推測することに焦点を当てています。
これらの制限に対処するために、マルチモーダル情報をSDGエージェントに統合する最初のフレームワークであるTestBed and Present Multimindとして、1つの夜のUltimate Wearwolf(ONUW)を使用します。
マルチミンドは、言葉の表情と声のトーンを口頭でのコンテンツとともに処理し、各プレーヤーの疑いレベルを他の人に対して表現するために心(TOM)モデルを使用します。
このTOMモデルとモンテカルロツリー検索(MCTS)を組み合わせることにより、エージェントは、それ自体に向けられた疑いを最小限に抑えるコミュニケーション戦略を特定します。
エージェントとエージェントの両方のシミュレーションと人間のプレーヤーとの研究の両方で包括的な評価を通じて、ゲームプレイでのマルチミンドの優れたパフォーマンスを示します。
私たちの仕事は、マルチモーダルドメイン全体で人間のような社会的推論が可能なLLMエージェントに対する重要な進歩を提示しています。

要約(オリジナル)

Large Language Model (LLM) agents have demonstrated impressive capabilities in social deduction games (SDGs) like Werewolf, where strategic reasoning and social deception are essential. However, current approaches remain limited to textual information, ignoring crucial multimodal cues such as facial expressions and tone of voice that humans naturally use to communicate. Moreover, existing SDG agents primarily focus on inferring other players’ identities without modeling how others perceive themselves or fellow players. To address these limitations, we use One Night Ultimate Werewolf (ONUW) as a testbed and present MultiMind, the first framework integrating multimodal information into SDG agents. MultiMind processes facial expressions and vocal tones alongside verbal content, while employing a Theory of Mind (ToM) model to represent each player’s suspicion levels toward others. By combining this ToM model with Monte Carlo Tree Search (MCTS), our agent identifies communication strategies that minimize suspicion directed at itself. Through comprehensive evaluation in both agent-versus-agent simulations and studies with human players, we demonstrate MultiMind’s superior performance in gameplay. Our work presents a significant advancement toward LLM agents capable of human-like social reasoning across multimodal domains.

arxiv情報

著者 Zheng Zhang,Nuoqian Xiao,Qi Chai,Deheng Ye,Hao Wang
発行日 2025-05-08 17:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク