要約
大規模な言語モデル(LLMS)は、特に接触センターの運用において、カスタマーエクスペリエンス管理(CXM)に革命をもたらすための計り知れない可能性を秘めています。
ただし、複雑な運用環境での実用的なユーティリティを評価することは、データ不足(プライバシーの懸念による)と現在のベンチマークの制限によって妨げられています。
既存のベンチマークには、多くの場合、リアリズムが欠けており、ディープナレッジベース(KB)統合、現実世界のノイズ、または会話の流encyさを超えた重要な運用タスクを組み込むことができません。
このギャップを埋めるために、操作上のCXMコンテキストでAIを評価するために特別に設計された新規で大規模な合成ベンチマークデータセットであるCXMarenaを紹介します。
可能性のあるコンタクトセンター機能の多様性を考えると、製品仕様、発行分類、コンタクトセンターの変換などの知識記事など、データセットなどの基盤を形成するブランドのCXMエンティティをシミュレートするスケーラブルなLLM駆動パイプラインを開発しました。
エンティティは、制御されたノイズインジェクション(ドメインの専門家から通知)と厳密な自動検証のために、実際の分布を密接に表しています。
これに基づいて、CXMARENEをリリースします。これは、知識ベースの洗練、意図予測、エージェントの品質アドヒアランス、記事検索、統合ツールを使用したマルチターンRAGの5つの重要な運用タスクを対象とした専用のベンチマークを提供します。
私たちのベースライン実験では、ベンチマークの難易度を強調しています。最先端の埋め込みモデルと生成モデルでさえ、記事検索で68%の精度しか得られませんが、標準の埋め込み方法は、知識ベースの洗練のために0.3の低いF1スコアを生成し、現在のモデルの重要な課題を強調しています。
要約(オリジナル)
Large Language Models (LLMs) hold immense potential for revolutionizing Customer Experience Management (CXM), particularly in contact center operations. However, evaluating their practical utility in complex operational environments is hindered by data scarcity (due to privacy concerns) and the limitations of current benchmarks. Existing benchmarks often lack realism, failing to incorporate deep knowledge base (KB) integration, real-world noise, or critical operational tasks beyond conversational fluency. To bridge this gap, we introduce CXMArena, a novel, large-scale synthetic benchmark dataset specifically designed for evaluating AI in operational CXM contexts. Given the diversity in possible contact center features, we have developed a scalable LLM-powered pipeline that simulates the brand’s CXM entities that form the foundation of our datasets-such as knowledge articles including product specifications, issue taxonomies, and contact center conversations. The entities closely represent real-world distribution because of controlled noise injection (informed by domain experts) and rigorous automated validation. Building on this, we release CXMArena, which provides dedicated benchmarks targeting five important operational tasks: Knowledge Base Refinement, Intent Prediction, Agent Quality Adherence, Article Search, and Multi-turn RAG with Integrated Tools. Our baseline experiments underscore the benchmark’s difficulty: even state of the art embedding and generation models achieve only 68% accuracy on article search, while standard embedding methods yield a low F1 score of 0.3 for knowledge base refinement, highlighting significant challenges for current models necessitating complex pipelines and solutions over conventional techniques.
arxiv情報
著者 | Raghav Garg,Kapil Sharma,Karan Gupta |
発行日 | 2025-05-14 14:44:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google