要約
チャットボット用の既存のリファレンスフリーのターンレベル評価指標は、ユーザーとシステム間の対話を適切に捉えていません。
その結果、それらは人間の評価とあまり相関しないことがよくあります。
この問題に対処するために、条件付きポイントワイズ相互情報 (C-PMI) を活用して、特定の評価次元に基づいてシステムとユーザー間のターンレベルのインタラクションを測定する、モデルに依存しない新しいアプローチを提案します。
広く使用されている FED 対話評価データセットに関する実験結果は、私たちのアプローチが既存の評価システムと比較して人間の判断との相関性を大幅に向上させることを示しています。
負の対数尤度ベースのスコアラーを私たちが提案する C-PMI スコアラーに置き換えることにより、FED 評価指標に関して平均で相対的に 60.5% 高いスピアマン相関を達成します。
私たちのコードは https://github.com/renll/C-PMI で公開されています。
要約(オリジナル)
Existing reference-free turn-level evaluation metrics for chatbots inadequately capture the interaction between the user and the system. Consequently, they often correlate poorly with human evaluations. To address this issue, we propose a novel model-agnostic approach that leverages Conditional Pointwise Mutual Information (C-PMI) to measure the turn-level interaction between the system and the user based on a given evaluation dimension. Experimental results on the widely used FED dialogue evaluation dataset demonstrate that our approach significantly improves the correlation with human judgment compared with existing evaluation systems. By replacing the negative log-likelihood-based scorer with our proposed C-PMI scorer, we achieve a relative 60.5% higher Spearman correlation on average for the FED evaluation metric. Our code is publicly available at https://github.com/renll/C-PMI.
arxiv情報
著者 | Liliang Ren,Mankeerat Sidhu,Qi Zeng,Revanth Gangi Reddy,Heng Ji,ChengXiang Zhai |
発行日 | 2023-06-27 06:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google