PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

要約

言語モデルのロールプレイング機能を評価するためのベンチマークを紹介します。
私たちのアプローチは、さまざまな言語モデルを活用して、動的でマルチターンの会話でユーザーをシミュレートし、結果の対話を評価します。
私たちの方法論には、特定の文字ロールを採用するプレーヤーモデル、特定の状況でのユーザーの行動をシミュレートする尋問モデル、およびキャラクターの一貫性、エンターテイメント価値、言語流ency性の3つのメトリックで会話の品質を評価する裁判官モデルのアンサンブル:3つの主要なコンポーネントが含まれます。
英語とロシア語の両方で40以上のモデルを評価し、各モデルは8文字と8文字の64の会話に参加しました。
自動化された評価を人間の注釈と比較して、アプローチを検証する実験を実施し、複数の基準にわたる強い相関関係を示しました。
この作業は、インタラクティブなシナリオにおけるさまざまなモデル機能の堅牢で動的な評価の基盤を提供します。

要約(オリジナル)

We introduce a benchmark for evaluating the role-playing capabilities of language models. Our approach leverages different language models to simulate users in dynamic, multi-turn conversations and assess the resulting dialogues. Our methodology involves three main components: a player model that adopts a specific character role, an interrogator model that simulates user behavior in a specific situation, and a judge model ensemble that evaluates conversation quality with 3 metrics: character consistency, entertainment value, and language fluency. We evaluated more than 40 models in both English and Russian, with each model participating in 64 conversations with 8 characters and 8 situations. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of different model capabilities in interactive scenarios.

arxiv情報

著者 Ilya Gusev
発行日 2025-04-09 10:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク