Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game

要約

大規模言語モデル (LLM) は、社会的演繹ゲームにおいて記憶に残る戦略的動作を示してきました。
しかし、LLM ベースのエージェントが発揮するオピニオン リーダーシップの重要性は、ほとんど見落とされてきました。これは、マルチエージェントや人間と AI の対話環境での実用化にとって極めて重要です。
オピニオンリーダーとは、社会集団内の他の人の信念や行動に顕著な影響を与える個人のことです。
この研究では、LLM のオピニオン リーダーシップを評価するためのシミュレーション プラットフォームとして人狼ゲームを使用します。
このゲームには、議論を要約し、決定オプションを推奨するという任務を負った保安官の役割が含まれているため、オピニオンリーダーの信頼できる代理人として機能します。
私たちは保安官の役割を統合するフレームワークを開発し、オピニオンリーダーの重要な特性に基づいて 2 つの新しい指標を考案します。
最初の指標はオピニオン リーダーの信頼性を測定し、2 番目の指標は他のプレーヤーの決定に対するオピニオン リーダーの影響を評価します。
私たちは、さまざまなスケールの LLM を評価するために広範な実験を行っています。
さらに、LLM によるゲーム ルールの把握を評価および強化するために、人狼の質問応答データセット (WWQA) を収集し、さらなる分析のために人間の参加者も組み込みます。
この結果は、人狼ゲームが LLM のオピニオン リーダーシップを評価するのに適した実験台であり、オピニオン リーダーシップの能力を備えた LLM がほとんどないことを示唆しています。

要約(オリジナル)

Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been largely overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game includes the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players’ decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM’s grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs, and few LLMs possess the capacity for opinion leadership.

arxiv情報

著者 Silin Du,Xiaowei Zhang
発行日 2024-08-29 08:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク