要約
既存の参照不要のターンレベル評価メトリクスは、ユーザーとシステム間のインタラクションを十分に捉えていません。その結果、人間の評価との相関が低いことが多い。この問題に対処するために、我々は、与えられた評価次元に基づいて、システムとユーザーとの間のターンレベルの相互作用を測定するために、条件付きポイントワイズ相互情報(C-PMI)を活用する新しいモデルにとらわれないアプローチを提案する。広く利用されているFED対話評価データセットを用いた実験結果から、本アプローチは既存の評価システムと比較して、人間の判断との相関を大幅に改善することが実証された。負対数尤度ベースのスコアラーを我々の提案するC-PMIスコアラーに置き換えることで、FED評価指標において平均62.6%高いスピアマン相関を達成した。我々のコードは https://github.com/renll/C-PMI で公開されている。
要約(オリジナル)
Existing reference-free turn-level evaluation metrics for chatbots inadequately capture the interaction between the user and the system. Consequently, they often correlate poorly with human evaluations. To address this issue, we propose a novel model-agnostic approach that leverages Conditional Pointwise Mutual Information (C-PMI) to measure the turn-level interaction between the system and the user based on a given evaluation dimension. Experimental results on the widely used FED dialogue evaluation dataset demonstrate that our approach significantly improves the correlation with human judgment compared with existing evaluation systems. By replacing the negative log-likelihood-based scorer with our proposed C-PMI scorer, we achieve a relative 62.6% higher Spearman correlation on average for the FED evaluation metric. Our code is publicly available at https://github.com/renll/C-PMI.
arxiv情報
著者 | Liliang Ren,Mankeerat Sidhu,Qi Zeng,Revanth Gangi Reddy,Heng Ji,ChengXiang Zhai |
発行日 | 2023-09-01 16:11:40+00:00 |
arxivサイト | arxiv_id(pdf) |