要約
MTに対する人間の評価に基づいて訓練されたニューラル・メトリクスは、人間の判断と良い相関を示す傾向があるが、その挙動は完全には理解されていない。本論文では、対照実験を行い、人間の評価で訓練されていないベースラインのメトリクス(Prism)と、同じメトリクスの訓練バージョン(Prism+FT)を比較する。驚くべきことに、Prism+FTは、MT評価において悪名高い問題である機械翻訳参照に対してより頑健であることがわかった。このことは、メトリックのトレーニングの効果が、人間の判断との全体的な相関を向上させるという意図された効果以上のものであることを示唆している。
要約(オリジナル)
Neural metrics trained on human evaluations of MT tend to correlate well with human judgments, but their behavior is not fully understood. In this paper, we perform a controlled experiment and compare a baseline metric that has not been trained on human evaluations (Prism) to a trained version of the same metric (Prism+FT). Surprisingly, we find that Prism+FT becomes more robust to machine-translated references, which are a notorious problem in MT evaluation. This suggests that the effects of metric training go beyond the intended effect of improving overall correlation with human judgments.
arxiv情報
著者 | Jannis Vamvas,Tobias Domhan,Sony Trenous,Rico Sennrich,Eva Hasler |
発行日 | 2023-12-01 12:15:58+00:00 |
arxivサイト | arxiv_id(pdf) |