要約
翻訳品質を評価するための自動指標は通常、人間の評価とどの程度相関しているかを測定することによって検証されます。
ただし、相関手法は、良いソースと翻訳のペアを区別するメトリクスの能力のみを捉える傾向があり、同じソースに対する代替翻訳を区別する際のその信頼性が無視されます。
この論文では、現在の指標が翻訳品質の微妙な違いに影響を受けないことを示すことで、これが実際に当てはまることを確認します。
この効果は、品質が高く、代替案間の分散が低い場合に最も顕著になります。
この発見を踏まえて、私たちは高品質の正しい翻訳の検出に向けて移行します。これは、品質の微妙な評価よりも正確さのバイナリ チェックが優先される実際の意思決定シナリオにおける重要な問題です。
MQM フレームワークをゴールド スタンダードとして使用し、人間がマークしたエラーのない翻訳を特定する現在のメトリクスの能力を体系的にストレス テストします。
私たちの調査結果では、現在の指標では翻訳の品質を過大評価または過小評価することが多いことが明らかになり、自動評価方法には改善の余地が大きいことが示されています。
要約(オリジナル)
Automatic metrics for evaluating translation quality are typically validated by measuring how well they correlate with human assessments. However, correlation methods tend to capture only the ability of metrics to differentiate between good and bad source-translation pairs, overlooking their reliability in distinguishing alternative translations for the same source. In this paper, we confirm that this is indeed the case by showing that current metrics are insensitive to nuanced differences in translation quality. This effect is most pronounced when the quality is high and the variance among alternatives is low. Given this finding, we shift towards detecting high-quality correct translations, an important problem in practical decision-making scenarios where a binary check of correctness is prioritized over a nuanced evaluation of quality. Using the MQM framework as the gold standard, we systematically stress-test the ability of current metrics to identify translations with no errors as marked by humans. Our findings reveal that current metrics often over or underestimate translation quality, indicating significant room for improvement in automatic evaluation methods.
arxiv情報
著者 | Sweta Agrawal,António Farinhas,Ricardo Rei,André F. T. Martins |
発行日 | 2024-05-28 16:44:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google