Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies

要約

10 年前、BLEU という単一の指標が機械翻訳研究の進歩を支配していました。
良くも悪くも、今日ではそのようなコンセンサスは存在せず、その結果、研究者が以前の研究や導入の決定の原動力となった計量デルタに関するヒューリスティックな直観を発展させ、維持することは困難です。
この論文では、メトリクス内およびメトリクス間の両方でのスコアの違いの意味を集合的に理解することを目的として、多くの最新のメトリクスの「ダイナミック レンジ」を調査します。
言い換えれば、人間が気づくには 2 つのシステム間で計量 Y の何点の差 X が必要か、ということです。
新しい大規模なデータセット ToShip23 で評価を行い、それを使用してメトリクスが人間にとって意味のあるシステムレベルの差異を達成するデルタを発見します。これはペアごとのシステム精度によって測定されます。
さらに、デルタ精度を確立するこの方法は、テストセットのサイズに関して統計的な p 値の標準的な使用よりも安定していることを示します。
データ サイズが許せば、翻訳方向、ドメイン、システムの近さなどのより詳細な特徴にわたるメトリック デルタと精度の影響も調査します。

要約(オリジナル)

Ten years ago a single metric, BLEU, governed progress in machine translation research. For better or worse, there is no such consensus today, and consequently it is difficult for researchers to develop and retain the kinds of heuristic intuitions about metric deltas that drove earlier research and deployment decisions. This paper investigates the ‘dynamic range’ of a number of modern metrics in an effort to provide a collective understanding of the meaning of differences in scores both within and among metrics; in other words, we ask what point difference X in metric Y is required between two systems for humans to notice? We conduct our evaluation on a new large dataset, ToShip23, using it to discover deltas at which metrics achieve system-level differences that are meaningful to humans, which we measure by pairwise system accuracy. We additionally show that this method of establishing delta-accuracy is more stable than the standard use of statistical p-values in regards to testset size. Where data size permits, we also explore the effect of metric deltas and accuracy across finer-grained features such as translation direction, domain, and system closeness.

arxiv情報

著者 Tom Kocmi,Vilém Zouhar,Christian Federmann,Matt Post
発行日 2024-01-12 18:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク