CharacterBench: Benchmarking Character Customization of Large Language Models

要約

キャラクターベースの対話 (別名ロールプレイング) により、ユーザーは対話用のキャラクターを自由にカスタマイズできますが、これは多くの場合 LLM に依存するため、LLM のキャラクターカスタマイズ機能を評価する必要性が生じています。
ただし、既存のベンチマークは、多くの場合、単一の文字カテゴリのみを対象としたり、限られた次元を評価したりするため、堅牢な評価を保証できません。
さらに、応答内の文字の特徴がまばらであるため、特徴に焦点を当てた生成評価は非効果的かつ非効率的になります。
これらの問題に対処するために、25 の詳細な文字カテゴリから 3,956 文字をカバーする 22,859 個の人間による注釈付きサンプルを含む、最大のバイリンガル生成ベンチマークである CharacterBench を提案します。
6 つの側面からなる 11 の次元を定義し、特定の次元で評価された性格の特徴が各応答に現れるかどうかに基づいて疎次元と密次元に分類します。
特定の次元に関連するキャラクターの反応を誘導するために、各次元に合わせたクエリを作成することで、効果的かつ効率的な評価を可能にします。
さらに、コスト効率が高く安定した評価を行うためのCharacterJudgeモデルを開発します。
実験では、SOTA 自動判定 (GPT-4 など) よりも優れていることと、LLM のキャラクターのカスタマイズを最適化するベンチマークの可能性が示されています。
私たちのリポジトリは https://github.com/thu-coai/CharacterBench にあります。

要約(オリジナル)

Character-based dialogue (aka role-playing) enables users to freely customize characters for interaction, which often relies on LLMs, raising the need to evaluate LLMs’ character customization capability. However, existing benchmarks fail to ensure a robust evaluation as they often only involve a single character category or evaluate limited dimensions. Moreover, the sparsity of character features in responses makes feature-focused generative evaluation both ineffective and inefficient. To address these issues, we propose CharacterBench, the largest bilingual generative benchmark, with 22,859 human-annotated samples covering 3,956 characters from 25 detailed character categories. We define 11 dimensions of 6 aspects, classified as sparse and dense dimensions based on whether character features evaluated by specific dimensions manifest in each response. We enable effective and efficient evaluation by crafting tailored queries for each dimension to induce characters’ responses related to specific dimensions. Further, we develop CharacterJudge model for cost-effective and stable evaluations. Experiments show its superiority over SOTA automatic judges (e.g., GPT-4) and our benchmark’s potential to optimize LLMs’ character customization. Our repository is at https://github.com/thu-coai/CharacterBench.

arxiv情報

著者	Jinfeng Zhou,Yongkang Huang,Bosi Wen,Guanqun Bi,Yuxuan Chen,Pei Ke,Zhuang Chen,Xiyao Xiao,Libiao Peng,Kuntian Tang,Rongsheng Zhang,Le Zhang,Tangjie Lv,Zhipeng Hu,Hongning Wang,Minlie Huang
発行日	2024-12-16 15:55:34+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

CharacterBench: Benchmarking Character Customization of Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー