Online vs Offline: A Comparative Study of First-Party and Third-Party Evaluations of Social Chatbots


共感的なチャットボットとのユーザー対話のベンチマーク データセットをオフラインのサードパーティ評価で拡張することにより、オンラインでのやり取りからのフィードバックと、より独立したオフラインのサードパーティ評価との体系的な比較を示します。
比較すると、GPT-4 モデルを使用した自動化されたサードパーティ評価は、詳細な指示が与えられた場合、ファーストパーティの人間の判断をより正確に近似します。


This paper explores the efficacy of online versus offline evaluation methods in assessing conversational chatbots, specifically comparing first-party direct interactions with third-party observational assessments. By extending a benchmarking dataset of user dialogs with empathetic chatbots with offline third-party evaluations, we present a systematic comparison between the feedback from online interactions and the more detached offline third-party evaluations. Our results reveal that offline human evaluations fail to capture the subtleties of human-chatbot interactions as effectively as online assessments. In comparison, automated third-party evaluations using a GPT-4 model offer a better approximation of first-party human judgments given detailed instructions. This study highlights the limitations of third-party evaluations in grasping the complexities of user experiences and advocates for the integration of direct interaction feedback in conversational AI evaluation to enhance system development and user satisfaction.


著者 Ekaterina Svikhnushina,Pearl Pu
発行日 2024-09-12 08:11:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.HC パーマリンク