要約
翻訳の目標は、人間であろうと機械によるものであろうと、ソース言語でいくつかのテキストが与えられ、同時にターゲット言語でテキストを作成します。
ただし、機械翻訳コミュニティの研究者は通常、セマンティックの精度と出力の自然性を同時にキャプチャすることを目的とした単一スコアを使用して、翻訳を評価します。
この論文では、情報理論の最近の進歩に基づいて、このようなシングルスコアの要約がシステムの真のパフォーマンスの完全な画像を提供しないことを示すことを数学的に証明し、経験的に実証します。
具体的には、正確性と自然性の間にトレードオフが存在することを証明し、WMT24共有タスクへの提出を評価することによりそれを実証します。
私たちの調査結果は、特定の精度メトリック(BLEUなど)の翻訳システムを最適化することでシステムの自然さを改善する一方で、メトリックに「過剰適合」するという観察など、よく知られている経験的現象を説明するのに役立ちます。
したがって、翻訳の評価方法の変更を提唱します。単一の数値を使用してシステムを比較するのではなく、精度の自然性平面で比較する必要があります。
要約(オリジナル)
The goal of translation, be it by human or by machine, is, given some text in a source language, to produce text in a target language that simultaneously 1) preserves the meaning of the source text and 2) achieves natural expression in the target language. However, researchers in the machine translation community usually assess translations using a single score intended to capture semantic accuracy and the naturalness of the output simultaneously. In this paper, we build on recent advances in information theory to mathematically prove and empirically demonstrate that such single-score summaries do not and cannot give the complete picture of a system’s true performance. Concretely, we prove that a tradeoff exists between accuracy and naturalness and demonstrate it by evaluating the submissions to the WMT24 shared task. Our findings help explain well-known empirical phenomena, such as the observation that optimizing translation systems for a specific accuracy metric (like BLEU) initially improves the system’s naturalness, while “overfitting” the system to the metric can significantly degrade its naturalness. Thus, we advocate for a change in how translations are evaluated: rather than comparing systems using a single number, they should be compared on an accuracy-naturalness plane.
arxiv情報
著者 | Gergely Flamich,David Vilar,Jan-Thorsten Peter,Markus Freitag |
発行日 | 2025-04-01 08:31:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google