BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust Machine Translation Evaluation

要約

COMET や BLEURT などのニューラルベースの機械翻訳評価指標は、人間の判断との強い相関関係を達成していますが、エンティティや数値の逸脱など、重大なエラーとみなされる特定の現象の検出においては信頼性に欠ける場合があります。
対照的に、BLEU や chrF など、翻訳仮説と人間による参照の間の語彙や文字の重複を測定する従来の評価指標は、人間の判断との相関性が低いものの、そのような逸脱に敏感です。
この論文では、重大なエラーを含む翻訳に対する最先端の評価方法の堅牢性を高めるために、2 つのアプローチを組み合わせるいくつかの方法を調査します。
トレーニング中に文レベルの特徴や単語レベルのタグなどの追加情報を使用することで、トレーニングされたメトリクスが特定の問題のある現象で翻訳にペナルティを与える能力が向上し、人間の判断との相関関係や最近の課題セットの向上につながることを示します。
いくつかの言語ペアで。

要約(オリジナル)

Although neural-based machine translation evaluation metrics, such as COMET or BLEURT, have achieved strong correlations with human judgements, they are sometimes unreliable in detecting certain phenomena that can be considered as critical errors, such as deviations in entities and numbers. In contrast, traditional evaluation metrics, such as BLEU or chrF, which measure lexical or character overlap between translation hypotheses and human references, have lower correlations with human judgements but are sensitive to such deviations. In this paper, we investigate several ways of combining the two approaches in order to increase robustness of state-of-the-art evaluation methods to translations with critical errors. We show that by using additional information during training, such as sentence-level features and word-level tags, the trained metrics improve their capability to penalize translations with specific troublesome phenomena, which leads to gains in correlation with human judgments and on recent challenge sets on several language pairs.

arxiv情報

著者 Taisiya Glushkova,Chrysoula Zerva,André F. T. Martins
発行日 2023-05-30 15:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク