PersonaGym: Evaluating Persona Agents and LLMs

要約

ペルソナ エージェントは、割り当てられたペルソナに従って動作する LLM エージェントであり、さまざまなアプリケーションにわたって優れたコンテキスト応答機能を実証しています。
これらのペルソナ エージェントは、教育、ヘルスケア、エンターテインメントなどのさまざまな分野にわたって大幅な機能強化を提供し、モデル開発者はエージェントの応答をさまざまなユーザー要件に合わせて調整できるため、エージェント アプリケーションの範囲が広がります。
ただし、各ペルソナ エージェントに関連するさまざまな環境にわたる自由形式のインタラクションでペルソナの遵守を評価するのは複雑であるため、ペルソナ エージェントのパフォーマンスを評価することは非常に困難です。
ペルソナ エージェントを評価するための最初の動的評価フレームワークである PersonaGym と、ペルソナ エージェントの包括的な大規模評価のための意思決定理論に基づいた人間に合わせた最初の自動化された指標である PersonaScore を紹介します。
200 のペルソナと 10,000 の質問を含むベンチマークを使用した 6 つのオープンおよびクローズドソース LLM の評価では、最先端のモデル全体でペルソナ エージェントの機能を向上させる重要な機会が明らかになりました。
たとえば、Claude 3.5 Sonnet は、はるかに高度なモデルであるにもかかわらず、GPT 3.5 に比べて ペルソナスコアの相対的な改善が 2.97% しかありません。
重要なのは、モデルのサイズと複雑さの増加は、必ずしもペルソナ エージェントの機能の強化を意味するわけではないため、忠実でパフォーマンスの高いペルソナ エージェントを実現するためのアルゴリズムとアーキテクチャの発明が差し迫った必要性を浮き彫りにしていることです。

要約(オリジナル)

Persona agents, which are LLM agents that act according to an assigned persona, have demonstrated impressive contextual response capabilities across various applications. These persona agents offer significant enhancements across diverse sectors, such as education, healthcare, and entertainment, where model developers can align agent responses to different user requirements thereby broadening the scope of agent applications. However, evaluating persona agent performance is incredibly challenging due to the complexity of assessing persona adherence in free-form interactions across various environments that are relevant to each persona agent. We introduce PersonaGym, the first dynamic evaluation framework for assessing persona agents, and PersonaScore, the first automated human-aligned metric grounded in decision theory for comprehensive large-scale evaluation of persona agents. Our evaluation of 6 open and closed-source LLMs, using a benchmark encompassing 200 personas and 10,000 questions, reveals significant opportunities for advancement in persona agent capabilities across state-of-the-art models. For example, Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore than GPT 3.5 despite being a much more advanced model. Importantly, we find that increased model size and complexity do not necessarily imply enhanced persona agent capabilities thereby highlighting the pressing need for algorithmic and architectural invention towards faithful and performant persona agents.

arxiv情報

著者 Vinay Samuel,Henry Peng Zou,Yue Zhou,Shreyas Chaudhari,Ashwin Kalyan,Tanmay Rajpurohit,Ameet Deshpande,Karthik Narasimhan,Vishvak Murahari
発行日 2024-12-18 14:25:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク