Pragmatically Appropriate Diversity for Dialogue Evaluation


タイトル: 対話評価のための実用的に適切な多様性
– 対話の根底にある発話行為は、会話の各ターンで適切な返答の種類を制限すると言語的なプラグマティクスでは述べられている。
– 対話応答を生成する際、ニューラル対話エージェントは多様な応答を生成することに苦労しています。
– 現在、対話の多様性は自動メトリクスを使用して評価されていますが、発話行為はこれらのメトリクスに影響を与えない。
– この問題を解決するために、我々はプラグマティックに適切な多様性という概念を提唱し、会話が多様な応答を作成し制約する度合いとして定義しました。
– 人間が作成したマルチレスポンスデータセットを使用して、我々は発話行為が次の応答の多様性についてのシグナルを提供することを仮定した実験的証拠を見つけました。
– さらに、創造的な作家が会話が多様な応答を促す度合いを予測する新しい人間評価タスクを提案しました。 我々の研究は、作家の判断が会話のプラグマティックに適切な多様性に一致することを発見しました。
– 本研究は、多様性のメトリックスコアの期待値は発話行為によって異なることを示唆しています。


Linguistic pragmatics state that a conversation’s underlying speech acts can constrain the type of response which is appropriate at each turn in the conversation. When generating dialogue responses, neural dialogue agents struggle to produce diverse responses. Currently, dialogue diversity is assessed using automatic metrics, but the underlying speech acts do not inform these metrics. To remedy this, we propose the notion of Pragmatically Appropriate Diversity, defined as the extent to which a conversation creates and constrains the creation of multiple diverse responses. Using a human-created multi-response dataset, we find significant support for the hypothesis that speech acts provide a signal for the diversity of the set of next responses. Building on this result, we propose a new human evaluation task where creative writers predict the extent to which conversations inspire the creation of multiple diverse responses. Our studies find that writers’ judgments align with the Pragmatically Appropriate Diversity of conversations. Our work suggests that expectations for diversity metric scores should vary depending on the speech act.


著者 Katherine Stasaski,Marti A. Hearst
発行日 2023-04-06 01:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク