MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation

要約

人間の評価と、BLEU、chrF2、BertScore、COMET などのオフライン機械翻訳 (MT) 評価指標との相関関係に関するメタ評価研究がいくつか行われています。
これらの指標は同時音声翻訳 (SST) を評価するために使用されてきましたが、最近連続評価 (CR) として収集された人間による SST 評価との相関関係は不明です。
このペーパーでは、IWSLT 2022 の英語-ドイツ語 SST タスクに提出された候補システムの評価を活用し、CR と前述の指標の広範な相関分析を実施します。
私たちの調査では、オフライン メトリクスは CR とよく相関しており、テスト セット サイズにいくつかの制限があるものの、同時モードでの機械翻訳の評価に確実に使用できることが明らかになりました。
現在の SST の品質レベルを考慮すると、これらの指標を CR の代用として使用でき、大規模な人による評価の必要性が軽減されると結論付けています。
さらに、基準として翻訳を使用した場合の指標の相関関係は、同時通訳を使用した場合よりも大幅に高いことが観察されたため、信頼性の高い評価のために前者を推奨します。

要約(オリジナル)

There have been several meta-evaluation studies on the correlation between human ratings and offline machine translation (MT) evaluation metrics such as BLEU, chrF2, BertScore and COMET. These metrics have been used to evaluate simultaneous speech translation (SST) but their correlations with human ratings of SST, which has been recently collected as Continuous Ratings (CR), are unclear. In this paper, we leverage the evaluations of candidate systems submitted to the English-German SST task at IWSLT 2022 and conduct an extensive correlation analysis of CR and the aforementioned metrics. Our study reveals that the offline metrics are well correlated with CR and can be reliably used for evaluating machine translation in simultaneous mode, with some limitations on the test set size. We conclude that given the current quality levels of SST, these metrics can be used as proxies for CR, alleviating the need for large scale human evaluation. Additionally, we observe that correlations of the metrics with translation as a reference is significantly higher than with simultaneous interpreting, and thus we recommend the former for reliable evaluation.

arxiv情報

著者 Dominik Macháček,Ondřej Bojar,Raj Dabre
発行日 2023-06-01 15:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク