要約
オープン・ドメイン対話システムは、人間と継続的に会話をするようになった。それらの対話システムには、対話者の視点に合わせ、評価することが求められている。しかし、現在の自動評価手法が対話者の判断に近似しているかどうかは疑問である。そこで本研究では、対話者の視点に立った自動応答評価器にどのような特徴が必要かを分析・検討した。Hazumiデータセットを用いた最初の実験により、自動応答評価を対話者の判断と相関させるためには、対話者の認識が重要な役割を果たすことが明らかになった。X(旧Twitter)上の大規模な会話を用いた2つ目の実験では、対話の連続性予測により、人間のフィードバックなしに対話者を意識した応答評価器を訓練できることを確認するとともに、生成された応答の評価が人間の応答に比べて困難であることを明らかにした。
要約(オリジナル)
Open-domain dialogue systems have started to engage in continuous conversations with humans. Those dialogue systems are required to be adjusted to the human interlocutor and evaluated in terms of their perspective. However, it is questionable whether the current automatic evaluation methods can approximate the interlocutor’s judgments. In this study, we analyzed and examined what features are needed in an automatic response evaluator from the interlocutor’s perspective. The first experiment on the Hazumi dataset revealed that interlocutor awareness plays a critical role in making automatic response evaluation correlate with the interlocutor’s judgments. The second experiment using massive conversations on X (formerly Twitter) confirmed that dialogue continuity prediction can train an interlocutor-aware response evaluator without human feedback while revealing the difficulty in evaluating generated responses compared to human responses.
arxiv情報
| 著者 | Yuma Tsuta,Naoki Yoshinaga,Shoetsu Sato,Masashi Toyoda | 
| 発行日 | 2024-01-04 13:15:41+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
