要約
顧客関係管理 (CRM) システムは現代の企業にとって不可欠であり、顧客とのやり取りとデータを管理するための基盤を提供します。
AI エージェントを CRM システムに統合すると、日常的なプロセスを自動化し、パーソナライズされたサービスを強化できます。
ただし、現実の CRM タスクの複雑さを反映する現実的なベンチマークがないため、これらのエージェントの導入と評価は困難です。
この問題に対処するために、プロフェッショナルな作業環境に基づいた現実的なタスクで AI エージェントを評価するように設計された新しいベンチマークである CRMArena を紹介します。
CRM 専門家からのガイダンスと業界のベスト プラクティスに従って、サービス エージェント、アナリスト、マネージャーの 3 つのペルソナに分散される 9 つの顧客サービス タスクを備えた CRMArena を設計しました。
このベンチマークには、現実的なデータ分布をシミュレートするために、相互接続性の高い 16 の一般的に使用される産業オブジェクト (アカウント、注文、ナレッジ記事、ケースなど) と潜在変数 (苦情の習慣、ポリシー違反など) が含まれています。
実験の結果、最先端の LLM エージェントが ReAct プロンプトを使用してタスクを成功させるのは 40% 未満であり、関数呼び出し機能を使用しても 55% 未満であることが明らかになりました。
私たちの調査結果は、実際の作業環境に導入するには、関数呼び出しとルールに従って強化されたエージェント機能の必要性を浮き彫りにしています。
CRMArena はコミュニティに対するオープンな挑戦です。タスクを確実に完了できるシステムは、一般的な作業環境で直接的なビジネス価値を示します。
要約(オリジナル)
Customer Relationship Management (CRM) systems are vital for modern enterprises, providing a foundation for managing customer interactions and data. Integrating AI agents into CRM systems can automate routine processes and enhance personalized service. However, deploying and evaluating these agents is challenging due to the lack of realistic benchmarks that reflect the complexity of real-world CRM tasks. To address this issue, we introduce CRMArena, a novel benchmark designed to evaluate AI agents on realistic tasks grounded in professional work environments. Following guidance from CRM experts and industry best practices, we designed CRMArena with nine customer service tasks distributed across three personas: service agent, analyst, and manager. The benchmark includes 16 commonly used industrial objects (e.g., account, order, knowledge article, case) with high interconnectivity, along with latent variables (e.g., complaint habits, policy violations) to simulate realistic data distributions. Experimental results reveal that state-of-the-art LLM agents succeed in less than 40% of the tasks with ReAct prompting, and less than 55% even with function-calling abilities. Our findings highlight the need for enhanced agent capabilities in function-calling and rule-following to be deployed in real-world work environments. CRMArena is an open challenge to the community: systems that can reliably complete tasks showcase direct business value in a popular work environment.
arxiv情報
著者 | Kung-Hsiang Huang,Akshara Prabhakar,Sidharth Dhawan,Yixin Mao,Huan Wang,Silvio Savarese,Caiming Xiong,Philippe Laban,Chien-Sheng Wu |
発行日 | 2024-11-04 17:30:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google