CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation

要約

最近、大規模言語モデル (LLM) の出現により、生成エージェントに革命が起こりました。
中でも、ロールプレイング会話エージェント (RPCA) は、ユーザーを感情的に引き込む能力があるため、大きな注目を集めています。
しかし、包括的なベンチマークが存在しないため、この分野の進歩は妨げられています。
このギャップを埋めるために、カスタマイズされた高品質のデータセットによって補完された、包括的な RPCA 評価のための中国のベンチマークである CharacterEval を導入します。
このデータセットは 1,785 のマルチターン ロールプレイングの対話で構成され、23,020 の例が含まれ、中国の小説や台本に由来する 77 人の登場人物が登場します。
GPT-4 による最初のダイアログの抽出から始まり、人間主導による厳格な品質管理が行われ、Baidu Baike から取得した詳細なキャラクター プロファイルによって強化され、慎重に構築されました。
CharacterEval は、4 つの次元で 13 の対象指標を網羅する多面的な評価アプローチを採用しています。
CharacterEval に関する包括的な実験により、中国語 LLM は中国語のロールプレイング会話において GPT-4 よりも有望な機能を示すことが実証されました。
ソースコード、データソース、報酬モデルは https://github.com/morecry/CharacterEval で公開されます。

要約(オリジナル)

Recently, the advent of large language models (LLMs) has revolutionized generative agents. Among them, Role-Playing Conversational Agents (RPCAs) attract considerable attention due to their ability to emotionally engage users. However, the absence of a comprehensive benchmark impedes progress in this field. To bridge this gap, we introduce CharacterEval, a Chinese benchmark for comprehensive RPCA assessment, complemented by a tailored high-quality dataset. The dataset comprises 1,785 multi-turn role-playing dialogues, encompassing 23,020 examples and featuring 77 characters derived from Chinese novels and scripts. It was carefully constructed, beginning with initial dialogue extraction via GPT-4, followed by rigorous human-led quality control, and enhanced with in-depth character profiles sourced from Baidu Baike. CharacterEval employs a multifaceted evaluation approach, encompassing thirteen targeted metrics on four dimensions. Comprehensive experiments on CharacterEval demonstrate that Chinese LLMs exhibit more promising capabilities than GPT-4 in Chinese role-playing conversation. Source code, data source and reward model will be publicly accessible at https://github.com/morecry/CharacterEval.

arxiv情報

著者 Quan Tu,Shilong Fan,Zihang Tian,Rui Yan
発行日 2024-01-09 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク