要約
機械翻訳の研究が文レベルを超えたテキストの翻訳に移行しているにもかかわらず、自動評価指標が長い翻訳のスコアリングにどれほど効果的であるかは依然として不明です。
この研究では、まず、既存の文レベルのデータからトレーニングおよびメタ評価指標用の段落レベルのデータを作成する方法を提案します。
次に、これらの新しいデータセットを使用して、既存の文レベルの指標をベンチマークし、段落レベルで学習した指標をトレーニングします。
興味深いことに、私たちの実験結果は、文章レベルの指標を使用して段落全体をスコアリングすることは、段落レベルで機能するように設計された指標を使用するのと同じくらい効果的であることを示しています。
この結果は、参考文献ベースの評価というタスクの特性と、段落レベルの翻訳で発生するあらゆる種類の現象の捕捉に関するデータセットの制限に起因すると考えられます。
要約(オリジナル)
As research on machine translation moves to translating text beyond the sentence level, it remains unclear how effective automatic evaluation metrics are at scoring longer translations. In this work, we first propose a method for creating paragraph-level data for training and meta-evaluating metrics from existing sentence-level data. Then, we use these new datasets to benchmark existing sentence-level metrics as well as train learned metrics at the paragraph level. Interestingly, our experimental results demonstrate that using sentence-level metrics to score entire paragraphs is equally as effective as using a metric designed to work at the paragraph level. We speculate this result can be attributed to properties of the task of reference-based evaluation as well as limitations of our datasets with respect to capturing all types of phenomena that occur in paragraph-level translations.
arxiv情報
著者 | Daniel Deutsch,Juraj Juraska,Mara Finkelstein,and Markus Freitag |
発行日 | 2023-08-25 17:31:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google