Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations

要約

このレビューでは、顧客サービスなどの対話システムの実際の応用に特に注意を払いながら、タスク指向の対話システムの評価方法の広範な概要を示します。
このレビューは、(1) 以前の研究で使用された構成要素と測定基準の概要を提供し、(2) 対話システム評価の文脈における課題を議論し、(3) 対話システム評価の将来に向けた研究課題を開発します。
私たちは 4 つのデータベース (ACL、ACM、IEEE、Web of Science) の系統的レビューを実施し、スクリーニングの結果、122 件の研究が得られました。
これらの研究は、評価のために提案された構成要素と方法について注意深く分析されました。
構造とメソッドの両方に幅広い多様性があることがわかりました。
特に運用化については必ずしも明確に報告されるわけではありません。
今後の作業では、使用される構成要素の運用化と仕様に対して、より重要なアプローチが取られることを期待しています。
この目的に向けて、このレビューは評価に関する推奨事項と未解決の質問に対する提案で終わります。

要約(オリジナル)

This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.

arxiv情報

著者 Anouck Braggaar,Christine Liebrecht,Emiel van Miltenburg,Emiel Krahmer
発行日 2023-12-21 14:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク