Robustness Tests for Automatic Machine Translation Metrics with Adversarial Attacks

要約

メトリックの堅牢性を明らかにするために、敵対的に合成されたテキストに対する MT 評価メトリックのパフォーマンスを調査します。
私たちは、BERTScore、BLEURT、COMET という 3 つの一般的な機械翻訳指標に対して、単語レベルおよび文字レベルの攻撃を実験します。
私たちの人体実験では、自動メトリクスが敵対的に劣化した翻訳に過剰なペナルティを与える傾向があることを検証しています。
また、BERTScore の評価における矛盾も特定します。つまり、元の文と敵対的に劣化した文は類似していると判断される一方で、参考文献に関して劣化した翻訳は元の文よりも著しく悪いと判断されます。
私たちは、より堅牢な指標開発を動機付ける脆弱性のパターンを特定します。

要約(オリジナル)

We investigate MT evaluation metric performance on adversarially-synthesized texts, to shed light on metric robustness. We experiment with word- and character-level attacks on three popular machine translation metrics: BERTScore, BLEURT, and COMET. Our human experiments validate that automatic metrics tend to overpenalize adversarially-degraded translations. We also identify inconsistencies in BERTScore ratings, where it judges the original sentence and the adversarially-degraded one as similar, while judging the degraded translation as notably worse than the original with respect to the reference. We identify patterns of brittleness that motivate more robust metric development.

arxiv情報

著者 Yichen Huang,Timothy Baldwin
発行日 2023-11-01 13:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク