要約
自動機械翻訳メトリクスは、品質システム翻訳を決定するために人間の翻訳を使用することがよくあります。この分野の常識では、人間の翻訳は非常に高品質であるべきとされている。しかし、機械翻訳の評価のためにリファレンスを収集しようと計画している実務家の指針となるような費用対効果の分析はありません。我々は、より質の高いリファレンスが、セグメントレベルでの人間とのより良いメトリック相関につながることを発見した。セグメントごとに最大7つのリファレンスを用意し、その平均を取ることで、すべてのメトリクスが改善される。興味深いことに、品質の異なるベンダーのリファレンスを混在させることで、メトリックの成功率を向上させることができる。しかし、質の高いリファレンスほど作成コストがかかるため、私たちはこれを最適化問題として捉えています。つまり、特定の予算がある場合、メトリックの成功を最大化するためにはどのようなリファレンスを収集すべきか、という問題です。これらの知見は、共有タスクの評価者が一定の予算内でリファレンスを作成する必要がある場合に利用できる。
要約(オリジナル)
Automatic machine translation metrics often use human translations to determine the quality system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
arxiv情報
著者 | Vilém Zouhar,Ondřej Bojar |
発行日 | 2024-01-03 14:01:49+00:00 |
arxivサイト | arxiv_id(pdf) |