Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy

要約

人間のアノテーターを最もよくエミュレートする自動メトリックを選択することは、「最もよくエミュレートする」の明確な定義がないため、しばしば自明ではない。人間の判断と自動メトリックのスコアを比較するメタメトリックが必要であり、メトリックのランキングはメタメトリックの選択に依存する。我々はソフトペアワイズ精度(SPA)を提案する。ソフトペアワイズ精度はペアワイズ精度(PA)を基礎とし、人間の判断とメトリックスコアの統計的有意性を組み込んだ新しいメタメトリックである。SPAは、評価に使用されるシステム/セグメント数の変化に対して、PAよりも安定していることを示す。また、PAがメトリクスに割り当てることができるのは、少数の明確な出力値のセットのみであり、その結果、多くのメトリクスが人為的にまったく同じPAスコアを割り当てられてしまうことを示す。SPAがこの問題を解決することを示す。最後に、SPAはPAよりも識別性が高く、メトリクス間でより統計的に有意な比較ができることを示す。SPAは、2024年のWMT Metrics Shared Taskの公式なシステムレベルメトリックに選ばれた。

要約(オリジナル)

Selecting an automatic metric that best emulates human annotators is often non-trivial, because there is no clear definition of ‘best emulates.’ A meta-metric is required to compare the human judgments to the automatic metric scores, and metric rankings depend on the choice of meta-metric. We propose Soft Pairwise Accuracy (SPA), a new meta-metric that builds on Pairwise Accuracy (PA) but incorporates the statistical significance of both the human judgments and the metric scores. We show that SPA is more stable than PA with respect to changes in the number of systems/segments used for evaluation. We also show that PA can only assign a small set of distinct output values to metrics, and this results in many metrics being artificially assigned the exact same PA score. We demonstrate that SPA fixes this issue. Finally, we show that SPA is more discriminative than PA, producing more statistically significant comparisons between metrics. SPA was selected as the official system-level metric for the 2024 WMT Metrics Shared Task.

arxiv情報

著者 Brian Thompson,Nitika Mathur,Daniel Deutsch,Huda Khayrallah
発行日 2024-10-04 16:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク