NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist

要約

この研究では、人間による評価の側面がメトリクスを計算するためのコンテキストまたは目的として使用されるかどうかに基づいて、NLG 自動メトリクスを分析します: (i) タスクに依存しない、および (ii) 人間に合わせた。
Perplexity、BLEU、BERTScore などのタスクに依存しないメトリクスは、コスト効率が高く、さまざまな NLG タスクに高度に適応しますが、人間との相関性は弱いです。
人間に合わせたメトリクス (CTC、CtrlEval、UniEval) は、人間に似た望ましい資質をトレーニング目標として組み込むことで、相関レベルを向上させます。
ただし、システムレベルのパフォーマンスとシステム出力の品質を識別する際のそれらの有効性は依然として不明です。
我々は、テキスト要約、対話応答生成、および制御生成という 3 つの NLG タスクにおける自動メトリクスの識別力を評価するためのフレームワークとして、メトリクス設定チェックリストを提示します。
特に人間による評価の側面間に不一致がある場合、複数の側面から人間に合わせた指標 (UniEval) が、単一の側面から人間に合わせた指標 (CTC、CtrlEval) やタスクに依存しない指標 (BLEU、BERTScore) よりも必ずしも優位であるわけではないことを示します。
現在。
また、システムレベルのパフォーマンスの識別に関して、自動メトリクスが人間よりも優れたガイダンスを提供する特定のユースケースも示します。
私たちが提案するフレームワークは、以下のアクセスを提供します。(i) 人間との相関レベルに関係なく、自動メトリクスが人間の好みに忠実であるかどうかを検証するため。
(ii) NLG システムの長所と限界を精査するため。これらは、評価スコアの標準的な平均法では不明瞭になることがよくあります。

要約(オリジナル)

In this study, we analyze NLG automatic metrics based on whether human evaluation aspect is used as context or objective to compute the metrics: (i) Task-agnostic and (ii) Human-aligned. Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective and highly adaptable to diverse NLG tasks, yet they have a weak correlation with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation level by incorporating desirable human-like qualities as training objective. However, their effectiveness at discerning system-level performance and quality of system outputs remains unclear. We present metric preference checklist as a framework to assess the discriminative power of automatic metrics in three NLG tasks: Text Summarization, Dialogue Response Generation, and Controlled Generation. We show that multi-aspect human-aligned metric (UniEval) is not necessarily dominant over single-aspect human-aligned metrics (CTC, CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly when a disagreement between human evaluation aspects is present. We also show particular use cases in which automatic metrics provide a better guidance than human on discriminating system-level performance. Our proposed framework provides access: (i) for verifying whether automatic metrics are faithful to human preference, regardless their correlation level to human; and (ii) for scrutinizing the strengths and limitations of NLG systems, which are often obscured by a standard averaging method of evaluation scores.

arxiv情報

著者 Iftitahu Ni’mah,Meng Fang,Vlado Menkovski,Mykola Pechenizkiy
発行日 2023-05-15 11:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク