ACES: Translation Accuracy Challenge Sets at WMT 2023

要約

ACES Challenge Set (Amrhein et al., 2022) を使用して、WMT 2023 に提出されたセグメントレベルのメトリクスのパフォーマンスをベンチマークします。
この課題セットは、68 の現象からの課題を表現し、146 の言語ペアをカバーする 36,000 の例で構成されています。
現象は、単語/文字レベルでの単純な混乱から、談話や現実世界の知識に基づくより複雑なエラーまで多岐にわたります。
各メトリックについて、さまざまなエラー カテゴリにわたるパフォーマンスの詳細なプロファイルと、簡単に比較できる全体的な ACES スコアを提供します。
また、WMT 2023 と 2022 の両方に送信されたメトリクスの増分パフォーマンスも測定します。1) WMT 2023 に送信されたメトリクスには明確な勝者はなく、2) メトリクスの 2023 バージョンと 2022 バージョンの間のパフォーマンスの変化は次のとおりです。
非常に変化しやすい。
私たちの推奨事項は、WMT 2022 の推奨事項と似ています。メトリクス開発者は、さまざまなデザイン ファミリからのメトリクスのアンサンブルを構築すること、ソースにもっと注意を払い、表面レベルの重複に依存しないメトリクスを開発すること、および多言語の影響を慎重に判断することに重点を置く必要があります。
MT 評価の埋め込み。

要約(オリジナル)

We benchmark the performance of segmentlevel metrics submitted to WMT 2023 using the ACES Challenge Set (Amrhein et al., 2022). The challenge set consists of 36K examples representing challenges from 68 phenomena and covering 146 language pairs. The phenomena range from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. For each metric, we provide a detailed profile of performance over a range of error categories as well as an overall ACES-Score for quick comparison. We also measure the incremental performance of the metrics submitted to both WMT 2023 and 2022. We find that 1) there is no clear winner among the metrics submitted to WMT 2023, and 2) performance change between the 2023 and 2022 versions of the metrics is highly variable. Our recommendations are similar to those from WMT 2022. Metric developers should focus on: building ensembles of metrics from different design families, developing metrics that pay more attention to the source and rely less on surface-level overlap, and carefully determining the influence of multilingual embeddings on MT evaluation.

arxiv情報

著者 Chantal Amrhein,Nikita Moghe,Liane Guillou
発行日 2023-11-02 11:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク