Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets

要約

最近の機械翻訳 (MT) メトリクスは、人間の判断と相関させることでその有効性を調整しますが、さまざまなエラー タイプにわたる動作についての洞察はありません。
チャレンジ セットは、指標の動作の特定の側面を調査するために使用されますが、そのようなデータセットは非常に少なく、限られた数の現象または限られた数の言語ペアに焦点を当てています。
146 の言語ペアにわたる対照的な課題セットである ACES を紹介します。指標によって 68 の翻訳精度エラーを特定できるかどうかを発見することを目的としています。
これらの現象は、単語/文字レベルでの単純な変更から、談話や現実世界の知識に基づくより複雑なエラーまで多岐にわたります。
WMT 2022 および 2023 の指標共有タスクに提出された 50 の指標について ACES をベンチマークすることで、大規模な調査を実施します。
私たちは指標のパフォーマンスをベンチマークし、連続したキャンペーンにわたる増分パフォーマンスを評価し、さまざまな言語現象に対する感度を測定します。
また、ACES で評価することにより、大規模言語モデル (LLM) が MT 評価器として有効であるという主張も調査します。
私たちの結果は、さまざまなメトリック ファミリがさまざまな現象と格闘しており、LLM ベースの手法では信頼性の高いパフォーマンスを実証できないことを示しています。
私たちの分析によると、ほとんどのメトリクスはソース文を無視し、表面レベルの重複を優先する傾向があり、最終的に必ずしも有益であるとは限らないベースモデルのプロパティを組み込むことになります。
私たちは ACES を拡張して、SPAN-ACES として示されるエラー スパン アノテーションを含めます。また、このデータセットを使用してスパンベースのエラー メトリックを評価し、これらのメトリックにも大幅な改善が必要であることを示しています。
最後に、スコアの代わりにエラーラベルに焦点を当てること、アンサンブル化、ソース文に明示的に焦点を当てるための戦略の設計、意味論的な内容に焦点を当てること、表現に適切な基本モデルを選択することなど、より良い MT メトリクスを構築するための一連の推奨事項を提供します。

要約(オリジナル)

Recent machine translation (MT) metrics calibrate their effectiveness by correlating with human judgement but without any insights about their behaviour across different error types. Challenge sets are used to probe specific dimensions of metric behaviour but there are very few such datasets and they either focus on a limited number of phenomena or a limited number of language pairs. We introduce ACES, a contrastive challenge set spanning 146 language pairs, aimed at discovering whether metrics can identify 68 translation accuracy errors. These phenomena range from simple alterations at the word/character level to more complex errors based on discourse and real-world knowledge. We conduct a large-scale study by benchmarking ACES on 50 metrics submitted to the WMT 2022 and 2023 metrics shared tasks. We benchmark metric performance, assess their incremental performance over successive campaigns, and measure their sensitivity to a range of linguistic phenomena. We also investigate claims that Large Language Models (LLMs) are effective as MT evaluators by evaluating on ACES. Our results demonstrate that different metric families struggle with different phenomena and that LLM-based methods fail to demonstrate reliable performance. Our analyses indicate that most metrics ignore the source sentence, tend to prefer surface-level overlap and end up incorporating properties of base models which are not always beneficial. We expand ACES to include error span annotations, denoted as SPAN-ACES and we use this dataset to evaluate span-based error metrics showing these metrics also need considerable improvement. Finally, we provide a set of recommendations for building better MT metrics, including focusing on error labels instead of scores, ensembling, designing strategies to explicitly focus on the source sentence, focusing on semantic content and choosing the right base model for representations.

arxiv情報

著者 Nikita Moghe,Arnisa Fazla,Chantal Amrhein,Tom Kocmi,Mark Steedman,Alexandra Birch,Rico Sennrich,Liane Guillou
発行日 2024-01-29 17:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク