要約
このペーパーでは、会話型チャットボットの評価におけるオンラインとオフラインの評価方法の有効性を調査し、特にファーストパーティの直接対話とサードパーティの観察による評価を比較します。
共感的なチャットボットとのユーザー対話のベンチマーク データセットをオフラインのサードパーティ評価で拡張することにより、オンラインでのやり取りからのフィードバックと、より独立したオフラインのサードパーティ評価との体系的な比較を示します。
私たちの結果は、オフラインの人による評価では、オンラインの評価ほど効果的に人とチャットボットのやりとりの微妙な点を捉えることができないことを明らかにしています。
比較すると、GPT-4 モデルを使用した自動化されたサードパーティ評価は、詳細な指示が与えられた場合、ファーストパーティの人間の判断をより正確に近似します。
この研究は、ユーザーエクスペリエンスの複雑さを把握する際の第三者評価の限界を浮き彫りにし、システム開発とユーザー満足度を向上させるために会話型AI評価に直接インタラクションフィードバックを統合することを提唱しています。
要約(オリジナル)
This paper explores the efficacy of online versus offline evaluation methods in assessing conversational chatbots, specifically comparing first-party direct interactions with third-party observational assessments. By extending a benchmarking dataset of user dialogs with empathetic chatbots with offline third-party evaluations, we present a systematic comparison between the feedback from online interactions and the more detached offline third-party evaluations. Our results reveal that offline human evaluations fail to capture the subtleties of human-chatbot interactions as effectively as online assessments. In comparison, automated third-party evaluations using a GPT-4 model offer a better approximation of first-party human judgments given detailed instructions. This study highlights the limitations of third-party evaluations in grasping the complexities of user experiences and advocates for the integration of direct interaction feedback in conversational AI evaluation to enhance system development and user satisfaction.
arxiv情報
| 著者 | Ekaterina Svikhnushina,Pearl Pu |
| 発行日 | 2024-09-12 08:11:08+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google