要約
自動メトリクスは機械翻訳において重要な役割を果たします。
N-gram ベースのメトリクスが広く使用されているにもかかわらず、最近では、文のセマンティクスの測定に焦点を当てた、事前トレーニングされたモデルベースのメトリクスの開発が急増しています。
ただし、これらのニューラル メトリクスは、人間の評価との高い相関関係が得られる一方で、検出が困難な潜在的なバイアスを備えたブラック ボックスであると考えられることがよくあります。
この研究では、機械翻訳システムをトレーニングするためのガイダンスの観点から、さまざまな主流および最先端の自動メトリクスを体系的に分析および比較します。
最小リスク トレーニング (MRT) を通じて、BLEURT や BARTScore における普遍的な敵対的変換の存在など、特定のメトリクスに堅牢性の欠陥があることがわかりました。
詳細な分析により、これらの堅牢性の欠陥の 2 つの主な原因が示唆されています。それは、トレーニング データセット内の分布の偏り、およびメトリクス パラダイムの傾向です。
トークンレベルの制約を組み込むことで、評価指標の堅牢性が強化され、それが機械翻訳システムのパフォーマンスの向上につながります。
コードは \url{https://github.com/powerpuffpomelo/fairseq_mrt} で入手できます。
要約(オリジナル)
Automatic metrics play a crucial role in machine translation. Despite the widespread use of n-gram-based metrics, there has been a recent surge in the development of pre-trained model-based metrics that focus on measuring sentence semantics. However, these neural metrics, while achieving higher correlations with human evaluations, are often considered to be black boxes with potential biases that are difficult to detect. In this study, we systematically analyze and compare various mainstream and cutting-edge automatic metrics from the perspective of their guidance for training machine translation systems. Through Minimum Risk Training (MRT), we find that certain metrics exhibit robustness defects, such as the presence of universal adversarial translations in BLEURT and BARTScore. In-depth analysis suggests two main causes of these robustness deficits: distribution biases in the training datasets, and the tendency of the metric paradigm. By incorporating token-level constraints, we enhance the robustness of evaluation metrics, which in turn leads to an improvement in the performance of machine translation systems. Codes are available at \url{https://github.com/powerpuffpomelo/fairseq_mrt}.
arxiv情報
著者 | Yiming Yan,Tao Wang,Chengqi Zhao,Shujian Huang,Jiajun Chen,Mingxuan Wang |
発行日 | 2023-07-10 15:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google