要約
会話型レコメンデーション システム (CRS) は、学術界で最近大きな進歩が達成されたにもかかわらず、現実世界のシナリオでのユーザー エクスペリエンスに関して批判されています。
CRS の既存の評価プロトコルでは、会話の有効性や流暢さなどのシステム中心の要素が優先され、ユーザー中心の側面が無視されている可能性があります。
そこで、システム中心の要素とユーザー中心の要素の両方を統合する、新しく包括的な評価プロトコル、Concept を提案します。
このような要素を表す 3 つの主要な特性を概念化し、さらにそれらを 6 つの主要な能力に分類します。
Concept を実装するために、LLM ベースのユーザー シミュレーターと、主要な能力ごとに調整されたスコアリング ルーブリックを備えた評価ツールを採用します。
私たちのプロトコルである Concept は 2 つの目的を果たします。
まず、現在の CRS モデルの長所と短所の概要を示します。
第 2 に、「全能の」ChatGPT におけるユーザビリティの低さの問題を正確に指摘し、CRS を評価するための包括的なリファレンス ガイドを提供することで、CRS 改善の基礎を確立します。
要約(オリジナル)
The conversational recommendation system (CRS) has been criticized regarding its user experience in real-world scenarios, despite recent significant progress achieved in academia. Existing evaluation protocols for CRS may prioritize system-centric factors such as effectiveness and fluency in conversation while neglecting user-centric aspects. Thus, we propose a new and inclusive evaluation protocol, Concept, which integrates both system- and user-centric factors. We conceptualise three key characteristics in representing such factors and further divide them into six primary abilities. To implement Concept, we adopt a LLM-based user simulator and evaluator with scoring rubrics that are tailored for each primary ability. Our protocol, Concept, serves a dual purpose. First, it provides an overview of the pros and cons in current CRS models. Second, it pinpoints the problem of low usability in the ‘omnipotent’ ChatGPT and offers a comprehensive reference guide for evaluating CRS, thereby setting the foundation for CRS improvement.
arxiv情報
著者 | Chen Huang,Peixin Qin,Yang Deng,Wenqiang Lei,Jiancheng Lv,Tat-Seng Chua |
発行日 | 2024-05-06 12:44:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google