Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good?

要約

大量に容易に入手できる単一言語データは、ほとんど入手できない並列データをスケールアップして、自動翻訳用に優れたモデルをトレーニングするために使用されてきました。
自己学習 (モデルがその出力から学習するように作成される) は、このようなデータを活用する 1 つのアプローチです。
ただし、利用可能な並列データが比較的極端に少ない場合、このデータが多すぎるとモデルのパフォーマンスに悪影響を与える可能性があることがわかっています。
この研究では、単一言語データが少なすぎる可能性があるかどうか、また品質に基づいてこの削減が翻訳モデルのパフォーマンスに影響を与えるかどうかを調査します。
実験によると、英語-ドイツ語の低リソース NMT では、利用可能なデータをすべて利用するよりも、品質またはテスト データのドメインへの近さに基づいて、最も有用な追加データのみを選択する方が多くの場合優れていることが示されています。

要約(オリジナル)

Monolingual data, being readily available in large quantities, has been used to upscale the scarcely available parallel data to train better models for automatic translation. Self-learning, where a model is made to learn from its output, is one approach to exploit such data. However, it has been shown that too much of this data can be detrimental to the performance of the model if the available parallel data is comparatively extremely low. In this study, we investigate whether the monolingual data can also be too little and if this reduction, based on quality, has any effect on the performance of the translation model. Experiments have shown that on English-German low-resource NMT, it is often better to select only the most useful additional data, based on quality or closeness to the domain of the test data, than utilizing all of the available data.

arxiv情報

著者 Idris Abdulmumin,Bashir Shehu Galadanci,Garba Aliyu,Shamsuddeen Hassan Muhammad
発行日 2024-10-17 17:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク