要約
この論文では、コーパスレベルの凝集が、機械翻訳(MT)システムを正確に評価するための語彙メトリックの能力をかなり妨げることを示しています。
経験的実験では、個々のセグメントレベルのスコアを平均することで、BLEやCHRFなどのメトリックが人間の判断とはるかに強力になり、CometやBleurtなどのニューラルメトリックにかなり類似しているようにすることが示されています。
コーパスとセグメントレベルの集約は、平均数学的問題の比率と比率の古典的な平均のためにかなり異なるため、この違いが存在することを示します。
さらに、私たちも示しているように、そのような違いは、コーパスレベルの集計の統計的堅牢性に大きく影響します。
現在、神経メトリックが十分にリソースのある言語の小さなセットのみをカバーしていることを考慮すると、このホワイトペーパーの結果は、低資源言語のMTシステムの評価をより信頼できるものにするのに役立ちます。
要約(オリジナル)
In this paper we show that corpus-level aggregation hinders considerably the capability of lexical metrics to accurately evaluate machine translation (MT) systems. With empirical experiments we demonstrate that averaging individual segment-level scores can make metrics such as BLEU and chrF correlate much stronger with human judgements and make them behave considerably more similar to neural metrics such as COMET and BLEURT. We show that this difference exists because corpus- and segment-level aggregation differs considerably owing to the classical average of ratio versus ratio of averages Mathematical problem. Moreover, as we also show, such difference affects considerably the statistical robustness of corpus-level aggregation. Considering that neural metrics currently only cover a small set of sufficiently-resourced languages, the results in this paper can help make the evaluation of MT systems for low-resource languages more trustworthy.
arxiv情報
著者 | Paulo Cavalin,Pedro Henrique Domingues,Claudio Pinhanez |
発行日 | 2025-01-23 17:39:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google