要約
大規模言語モデル(LLM)は、環境認識、推論に基づく意思決定、複雑な人間行動のシミュレーション、特にインタラクティブなロールプレイングコンテキストにおいて顕著な能力を示している。本論文では、殺人ミステリーゲームを通して高度な人間の行動を描写するLLMの熟練度を評価するために設計された包括的なフレームワークであるMIRAGE(Multiverse Interactive Role-play Ability General Evaluation)を紹介する。MIRAGEは、多様なテーマとスタイルで複雑に作られた8つのスクリプトを備え、豊かなシミュレーションを提供する。MIRAGEでは、LLMのパフォーマンスを評価するために、信頼と疑念のダイナミクスを測定するTrust Inclination Index(TII)、LLMの情報導出能力を測定するClue Investigation Capability(CIC)、ロールプレイ能力を評価するInteractivity Capability Index(ICI)、LLMの指示理解・遵守能力を評価するScript Compliance Index(SCI)の4つの手法を採用している。我々の実験によれば、GPT-4のような一般的なモデルでさえ、MIRAGEが提示する複雑な状況を乗り切るには大きな困難に直面している。データセットとシミュレーション・コードは⋈https://github.com/lime728/MIRAGE}{github} にあります。
要約(オリジナル)
Large Language Models (LLMs) have shown remarkable capabilities in environmental perception, reasoning-based decision-making, and simulating complex human behaviors, particularly in interactive role-playing contexts. This paper introduces the Multiverse Interactive Role-play Ability General Evaluation (MIRAGE), a comprehensive framework designed to assess LLMs’ proficiency in portraying advanced human behaviors through murder mystery games. MIRAGE features eight intricately crafted scripts encompassing diverse themes and styles, providing a rich simulation. To evaluate LLMs’ performance, MIRAGE employs four distinct methods: the Trust Inclination Index (TII) to measure dynamics of trust and suspicion, the Clue Investigation Capability (CIC) to measure LLMs’ capability of conducting information, the Interactivity Capability Index (ICI) to assess role-playing capabilities and the Script Compliance Index (SCI) to assess LLMs’ capability of understanding and following instructions. Our experiments indicate that even popular models like GPT-4 face significant challenges in navigating the complexities presented by the MIRAGE. The datasets and simulation codes are available in \href{https://github.com/lime728/MIRAGE}{github}.
arxiv情報
著者 | Cai Yin,Gu Zhouhong,Du Zhaohan,Ye Zheyu,Cao Shaosheng,Xu Yiqian,Feng Hongwei,Chen Ping |
発行日 | 2025-01-03 06:07:48+00:00 |
arxivサイト | arxiv_id(pdf) |