Evaluating Automatic Metrics with Incremental Machine Translation Systems

要約

我々は、12の翻訳方向にわたって6年間にわたって毎週収集された商用機械翻訳で構成されるデータセットを紹介します。人間によるA/Bテストが一般的に使用されているため、商用システムは時間の経過とともに改善されると仮定し、より新しい翻訳に対する嗜好性に基づいて機械翻訳(MT)メトリクスを評価することを可能にする。私たちの研究は、機械翻訳(MT)メトリクス研究におけるいくつかの先行研究結果を確認し、メトリクス評価のためのテストベッドとしてのデータセットの価値を実証しています。コードは https://github.com/gjwubyron/Evo で公開している。

要約(オリジナル)

We introduce a dataset comprising commercial machine translations, gathered weekly over six years across 12 translation directions. Since human A/B testing is commonly used, we assume commercial systems improve over time, which enables us to evaluate machine translation (MT) metrics based on their preference for more recent translations. Our study confirms several previous findings in MT metrics research and demonstrates the dataset’s value as a testbed for metric evaluation. We release our code at https://github.com/gjwubyron/Evo

arxiv情報

著者 Guojun Wu,Shay B. Cohen,Rico Sennrich
発行日 2024-07-03 17:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク