There’s no Data Like Better Data: Using QE Metrics for MT Data Filtering

要約

明示的な参照を必要としない機械翻訳出力の評価である品質評価 (QE) は、ニューラル メトリクスの使用によりここ数年で大幅な改善が見られました。
この論文では、ニューラル機械翻訳システム (NMT) のトレーニング データから品質の悪い文のペアをフィルタリングするために QE メトリクスを使用することの実現可能性を分析します。
ほとんどのコーパス フィルタリング手法は、テキストのコレクション (通常は Web クロールされた大量のデータ) 内のノイズの多い例を検出することに焦点を当てていますが、QE モデルは、よりきめ細かい品質の違いを区別するようにトレーニングされています。
トレーニング データ内で最高品質の文ペアを選択することで、トレーニング サイズを半分に削減しながら翻訳品質を向上できることを示します。
また、フィルタリング結果の詳細な分析も提供し、両方のアプローチの違いを強調します。

要約(オリジナル)

Quality Estimation (QE), the evaluation of machine translation output without the need of explicit references, has seen big improvements in the last years with the use of neural metrics. In this paper we analyze the viability of using QE metrics for filtering out bad quality sentence pairs in the training data of neural machine translation systems~(NMT). While most corpus filtering methods are focused on detecting noisy examples in collections of texts, usually huge amounts of web crawled data, QE models are trained to discriminate more fine-grained quality differences. We show that by selecting the highest quality sentence pairs in the training data, we can improve translation quality while reducing the training size by half. We also provide a detailed analysis of the filtering results, which highlights the differences between both approaches.

arxiv情報

著者 Jan-Thorsten Peter,David Vilar,Daniel Deutsch,Mara Finkelstein,Juraj Juraska,Markus Freitag
発行日 2023-11-09 13:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク