A comparison of translation performance between DeepL and Supertext

要約

強力な機械翻訳(MT)システムは、大規模言語モデル(LLM)に基づくことが多くなっているため、信頼性の高い品質ベンチマークには、拡張コンテキストを活用する能力を把握する方法が必要である。この研究では、2つの商用MTシステム(DeepLとSupertext)を、セグメント化されていないテキストでのパフォーマンスを評価することによって比較する。プロの翻訳者が文書レベルの完全なコンテキストでセグメントを評価し、4つの言語方向にわたって翻訳品質を評価した。セグメントレベルの評価では、ほとんどのケースで両システム間に強い優劣は見られなかったが、文書レベルの分析では、4つの言語方向のうち3つでSupertextが優れていることが明らかになった。私たちは、MT の品質評価が実世界の使いやすさを反映するよう、より文脈に即した評価方法を提唱する。評価データとスクリプトはすべて公開し、https://github.com/supertext/evaluation_deepl_supertext でさらなる分析と再現を行う。

要約(オリジナル)

As strong machine translation (MT) systems are increasingly based on large language models (LLMs), reliable quality benchmarking requires methods that capture their ability to leverage extended context. This study compares two commercial MT systems — DeepL and Supertext — by assessing their performance on unsegmented texts. We evaluate translation quality across four language directions with professional translators assessing segments with full document-level context. While segment-level assessments indicate no strong preference between the systems in most cases, document-level analysis reveals a preference for Supertext in three out of four language directions, suggesting superior consistency across longer texts. We advocate for more context-sensitive evaluation methodologies to ensure that MT quality assessments reflect real-world usability. We release all evaluation data and scripts for further analysis and reproduction at https://github.com/supertext/evaluation_deepl_supertext.

arxiv情報

著者 Alex Flückiger,Chantal Amrhein,Tim Graf,Philippe Schläpfer,Florian Schottmann,Samuel Läubli
発行日 2025-02-04 18:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク