Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs

要約

アドホック取得では、評価は暗黙的なフィードバックを含むユーザーのアクションに大きく依存します。
会話環境では、インタラクションの性質上、そのようなシグナルは通常利用できず、代わりに評価はクラウドソーシングの評価ラベルに依存することがよくあります。
アノテーターによる会話認識におけるターンの評価におけるユーザー フィードバックの役割については、ほとんど研究されていません。
私たちは、評価対象のターンのフォローアップ発話を通じて提供される明示的または暗黙的なユーザーフィードバックを考慮することによって、タスク指向対話システム (TDS) の評価がどのように影響を受けるかに焦点を当てます。
TDS を評価するための 2 つの方法論を検討し、比較します。1 つはユーザーのフォローアップ発話を含むもの、もう 1 つは含まないものです。
私たちはクラウドワーカーと大規模言語モデル (LLM) の両方をアノテーターとして使用し、関連性、有用性、面白さ、説明の質という 4 つの側面にわたってシステムの応答を評価します。
私たちの調査結果は、2 つの設定で両方のアノテーター グループによって割り当てられた評価に明らかな違いがあり、ユーザーのフィードバックがシステム評価に影響を与えていることを示しています。
労働者は、面白さや関連性に関する LLM に比べて、有用性や面白さに関するユーザーのフィードバックをより受けやすくなります。
ユーザーのフィードバックは、ユーザーの明示的なフィードバックと密接に連携して、作業者による有用性のより個人的な評価につながります。
さらに、ユーザーのリクエストがあいまいまたは複雑な場合、ユーザーのフィードバックによりクラウドワーカー間の合意が改善されます。
これらの発見は、システム評価を改良する際のユーザー フィードバックの重要性を強調し、将来の研究における自動フィードバック統合の可能性を示唆しています。
この分野の研究を促進するために、注釈付きデータを一般に公開します。

要約(オリジナル)

In ad-hoc retrieval, evaluation relies heavily on user actions, including implicit feedback. In a conversational setting such signals are usually unavailable due to the nature of the interactions, and, instead, the evaluation often relies on crowdsourced evaluation labels. The role of user feedback in annotators’ assessment of turns in a conversational perception has been little studied. We focus on how the evaluation of task-oriented dialogue systems (TDSs), is affected by considering user feedback, explicit or implicit, as provided through the follow-up utterance of a turn being evaluated. We explore and compare two methodologies for assessing TDSs: one includes the user’s follow-up utterance and one without. We use both crowdworkers and large language models (LLMs) as annotators to assess system responses across four aspects: relevance, usefulness, interestingness, and explanation quality. Our findings indicate that there is a distinct difference in ratings assigned by both annotator groups in the two setups, indicating user feedback does influence system evaluation. Workers are more susceptible to user feedback on usefulness and interestingness compared to LLMs on interestingness and relevance. User feedback leads to a more personalized assessment of usefulness by workers, aligning closely with the user’s explicit feedback. Additionally, in cases of ambiguous or complex user requests, user feedback improves agreement among crowdworkers. These findings emphasize the significance of user feedback in refining system evaluations and suggest the potential for automated feedback integration in future research. We publicly release the annotated data to foster research in this area.

arxiv情報

著者 Clemencia Siro,Mohammad Aliannejadi,Maarten de Rijke
発行日 2024-04-19 16:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク