RoleInteract: Evaluating the Social Interaction of Role-Playing Agents

要約

大規模言語モデル (LLM) は、多様なキャラクターや人間の行動を模倣するロールプレイング会話エージェントを含む、さまざまな AI 会話エージェントの開発を進めてきました。
これまでの研究は主に、これらのエージェントの会話能力、役割固有の知識、文体的属性を強化することに焦点を当ててきましたが、彼らの社会的知性の評価には顕著なギャップがありました。
この論文では、ロールプレイング会話エージェントの社会性を個人レベルとグループレベルの両方の社会的相互作用で体系的に評価するために設計された最初のベンチマークである、RoleInteract を紹介します。
このベンチマークはさまざまなソースから構築されており、広範囲の 500 文字、6,000 を超える質問プロンプト、および 30,800 のマルチターン ロールプレイング発話をカバーしています。
私たちは、主流のオープンソースおよびクローズドソース LLM を使用して、このベンチマークの包括的な評価を実行します。
個人レベルで優れたエージェントがグループ レベルで熟練していることを意味するものではないことがわかりました。
さらに、グループ内の他のエージェントが及ぼす影響の結果として、個人の行動が変動する可能性があります。
RoleInteract に関する実験結果は、ロールプレイング会話エージェントの社会的相互作用を評価するためのテストベッドとしての重要性を裏付けています。
このベンチマークは、https://github.com/X-PLUG/RoleInteract で公開されています。

要約(オリジナル)

Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce RoleInteract, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on RoleInteract confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/RoleInteract.

arxiv情報

著者 Hongzhan Chen,Hehong Chen,Ming Yan,Wenshen Xu,Xing Gao,Weizhou Shen,Xiaojun Quan,Chenliang Li,Ji Zhang,Fei Huang,Jingren Zhou
発行日 2024-03-20 15:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク