要約
高品質の機械翻訳 (MT) の評価は人間の判断に大きく依存します。
多次元品質メトリクス (MQM) などの包括的なエラー分類方法は、時間がかかるため高価であり、専門家のみが行うことができ、特に低リソース言語ではその利用が制限される可能性があります。
一方、直接評価 (DA) のように全体的なスコアを割り当てるだけの場合は、より簡単かつ迅速で、あらゆるレベルの翻訳者が行うことができますが、信頼性は低くなります。
このペーパーでは、DA の継続評価と MQM の高レベルのエラー重大度スパン マーキングを組み合わせた人間による評価プロトコルであるエラー スパン アノテーション (ESA) を紹介します。
ESA を、12 MT システムの MQM および DA、および WMT23 からの 1 件の人による参照翻訳 (英語からドイツ語) と比較することによって検証します。
結果は、ESA は、高価な MQM 専門家を必要とせずに、同じ品質レベルで MQM よりも高速かつ安価なアノテーションを提供することを示しています。
要約(オリジナル)
High-quality Machine Translation (MT) evaluation relies heavily on human judgments. Comprehensive error classification methods, such as Multidimensional Quality Metrics (MQM), are expensive as they are time-consuming and can only be done by experts, whose availability may be limited especially for low-resource languages. On the other hand, just assigning overall scores, like Direct Assessment (DA), is simpler and faster and can be done by translators of any level, but is less reliable. In this paper, we introduce Error Span Annotation (ESA), a human evaluation protocol which combines the continuous rating of DA with the high-level error severity span marking of MQM. We validate ESA by comparing it to MQM and DA for 12 MT systems and one human reference translation (English to German) from WMT23. The results show that ESA offers faster and cheaper annotations than MQM at the same quality level, without the requirement of expensive MQM experts.
arxiv情報
著者 | Tom Kocmi,Vilém Zouhar,Eleftherios Avramidis,Roman Grundkiewicz,Marzena Karpinska,Maja Popović,Mrinmaya Sachan,Mariya Shmatova |
発行日 | 2024-10-18 15:20:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google