要約
COMET などの機械翻訳評価用のニューラル メトリクスは、BLEU などの語彙の重複に基づく従来のメトリクスと比較して、人間の判断との相関性が大幅に向上しています。
しかし、ニューラル メトリクスは、意思決定プロセスに関する透明性がなく、単一の文レベルのスコアを返す大部分の「ブラック ボックス」です。
この研究では、いくつかのニューラル説明可能性手法を開発および比較し、最先端の微調整されたニューラル メトリクスを解釈するためのそれらの有効性を実証します。
私たちの調査では、これらのメトリクスは、トークンレベルのニューラル顕著性マップと多次元品質メトリクス (MQM) アノテーションおよび合成的に生成された重大な翻訳エラーとの比較を通じて評価された、翻訳エラーに直接起因する可能性のあるトークンレベルの情報を活用していることが明らかになりました。
将来の研究を容易にするために、https://github.com/Unbabel/COMET/tree/explainable-metrics でコードをリリースします。
要約(オリジナル)
Neural metrics for machine translation evaluation, such as COMET, exhibit significant improvements in their correlation with human judgments, as compared to traditional metrics based on lexical overlap, such as BLEU. Yet, neural metrics are, to a great extent, ‘black boxes’ returning a single sentence-level score without transparency about the decision-making process. In this work, we develop and compare several neural explainability methods and demonstrate their effectiveness for interpreting state-of-the-art fine-tuned neural metrics. Our study reveals that these metrics leverage token-level information that can be directly attributed to translation errors, as assessed through comparison of token-level neural saliency maps with Multidimensional Quality Metrics (MQM) annotations and with synthetically-generated critical translation errors. To ease future research, we release our code at: https://github.com/Unbabel/COMET/tree/explainable-metrics.
arxiv情報
著者 | Ricardo Rei,Nuno M. Guerreiro,Marcos Treviso,Luisa Coheur,Alon Lavie,André F. T. Martins |
発行日 | 2023-05-19 16:42:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google