要約
オープンドメインの対話システムは最近進歩しているにもかかわらず、信頼できる評価基準を構築することは依然として困難な問題です。
最近の研究では、正しい応答を区別するために訓練された分類モデルに基づいた学習可能な指標が提案されています。
ただし、ニューラル分類器は、目に見えない分布からの例に対して過度に自信を持って予測を行うことが知られています。
我々は、ニューラル分類器から導出された特徴空間上の密度推定を利用して応答を評価する DEnsity を提案します。
私たちの指標は、人間の会話の分布の中で応答が現れる可能性を測定します。
さらに、DEnsity のパフォーマンスを向上させるために、対照学習を利用して特徴空間をさらに圧縮します。
多重応答評価データセットの実験では、DEnsity が既存の指標よりも人間の評価とよりよく相関していることが示されています。
私たちのコードは https://github.com/ddehun/DEnsity で入手できます。
要約(オリジナル)
Despite the recent advances in open-domain dialogue systems, building a reliable evaluation metric is still a challenging problem. Recent studies proposed learnable metrics based on classification models trained to distinguish the correct response. However, neural classifiers are known to make overly confident predictions for examples from unseen distributions. We propose DEnsity, which evaluates a response by utilizing density estimation on the feature space derived from a neural classifier. Our metric measures how likely a response would appear in the distribution of human conversations. Moreover, to improve the performance of DEnsity, we utilize contrastive learning to further compress the feature space. Experiments on multiple response evaluation datasets show that DEnsity correlates better with human evaluations than the existing metrics. Our code is available at https://github.com/ddehun/DEnsity.
arxiv情報
著者 | ChaeHun Park,Seungil Chad Lee,Daniel Rim,Jaegul Choo |
発行日 | 2023-05-25 11:40:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google