要約
従来、機械翻訳 (MT) の評価は、絶対的な翻訳品質スコアを生成する回帰問題として扱われてきました。
このアプローチには 2 つの制限があります。i) スコアには解釈可能性が欠けており、ヒューマン アノテーターは一貫したスコアを与えるのに苦労します。
ii) ほとんどのスコアリング方法は (参考文献、翻訳) ペアに基づいており、参考文献が存在しない現実世界のシナリオでは適用が制限されます。
実際には、新しい MT システムが競合他社より優れているか劣っているかを気にすることがよくあります。
さらに、リファレンスフリーの MT 評価はますます実用的であり、必要性が高まっています。
残念ながら、これら 2 つの実際的な考慮事項はまだ共同で検討されていません。
この研究では、参照不要の MT 評価をペアワイズ ランキング問題に定式化します。
ソース文と翻訳のペアが与えられると、システムはどちらの翻訳がより優れているかを予測します。
この新しい定式化を提案することに加えて、この新しいパラダイムが、自然言語推論からの間接的な監視と合成データからの弱い監視を使用するだけで、人間の判断との優れた相関関係を実証できることをさらに示します。
リファレンスフリー評価のコンテキストでは、人間による注釈なしでトレーニングされた MT-Ranker は、WMT 共有メトリクス タスクのベンチマーク DARR20、MQM20、および MQM21 で最先端の結果を達成しました。
追加、省略、誤訳エラーなどのきめ細かい評価基準を含む、より困難なベンチマークである ACES では、MT-Ranker は、参照フリーのベースラインと参照ベースのベースラインに対して最先端のマークを付けます。
要約(オリジナル)
Traditionally, Machine Translation (MT) Evaluation has been treated as a regression problem — producing an absolute translation-quality score. This approach has two limitations: i) the scores lack interpretability, and human annotators struggle with giving consistent scores; ii) most scoring methods are based on (reference, translation) pairs, limiting their applicability in real-world scenarios where references are absent. In practice, we often care about whether a new MT system is better or worse than some competitors. In addition, reference-free MT evaluation is increasingly practical and necessary. Unfortunately, these two practical considerations have yet to be jointly explored. In this work, we formulate the reference-free MT evaluation into a pairwise ranking problem. Given the source sentence and a pair of translations, our system predicts which translation is better. In addition to proposing this new formulation, we further show that this new paradigm can demonstrate superior correlation with human judgments by merely using indirect supervision from natural language inference and weak supervision from our synthetic data. In the context of reference-free evaluation, MT-Ranker, trained without any human annotations, achieves state-of-the-art results on the WMT Shared Metrics Task benchmarks DARR20, MQM20, and MQM21. On a more challenging benchmark, ACES, which contains fine-grained evaluation criteria such as addition, omission, and mistranslation errors, MT-Ranker marks state-of-the-art against reference-free as well as reference-based baselines.
arxiv情報
著者 | Ibraheem Muhammad Moosa,Rui Zhang,Wenpeng Yin |
発行日 | 2024-01-30 15:30:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google