Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models

要約

現在の言語モデルは欺瞞や嘘の検出が可能だろうか?我々は、$textit{Hoodwinked}$というテキストベースのゲームを紹介することで、この疑問を研究する。プレイヤーはある家に閉じ込められ、脱出するための鍵を見つけなければならないが、一人のプレイヤーは他のプレイヤーを殺す任務を負っている。殺人が行われるたびに、生き残ったプレイヤーは自然言語によるディスカッションを行い、投票によって1人のプレイヤーをゲームから追放する。GPT-3、GPT-3.5、GPT-4で制御されたエージェントで実験を行い、欺瞞と嘘発見能力の証拠を発見する。殺人者はしばしば自分の犯罪を否定し、他人を非難し、投票結果に測定可能な効果をもたらす。より高度なモデルは、より効果的な殺人者であり、24のペアワイズ比較のうち18において、より小さなモデルを凌駕している。二次的な測定基準は、この改善が異なる行動によって媒介されるのではなく、むしろ議論中のより強い説得力によって媒介されるという証拠を提供する。人間を欺くAIエージェントの能力を評価するために、我々はこのゲームをh https://hoodwinked.ai/ で公開する。

要約(オリジナル)

Are current language models capable of deception and lie detection? We study this question by introducing a text-based game called $\textit{Hoodwinked}$, inspired by Mafia and Among Us. Players are locked in a house and must find a key to escape, but one player is tasked with killing the others. Each time a murder is committed, the surviving players have a natural language discussion then vote to banish one player from the game. We conduct experiments with agents controlled by GPT-3, GPT-3.5, and GPT-4 and find evidence of deception and lie detection capabilities. The killer often denies their crime and accuses others, leading to measurable effects on voting outcomes. More advanced models are more effective killers, outperforming smaller models in 18 of 24 pairwise comparisons. Secondary metrics provide evidence that this improvement is not mediated by different actions, but rather by stronger persuasive skills during discussions. To evaluate the ability of AI agents to deceive humans, we make this game publicly available at h https://hoodwinked.ai/ .

arxiv情報

著者 Aidan O’Gara
発行日 2023-08-04 00:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク