Improving Polish to English Neural Machine Translation with Transfer Learning: Effects of Data Volume and Language Similarity

要約

この論文では、機械翻訳タスクにおける転移学習に対するデータ量と類似言語の使用の影響を調査します。
一般に、より多くのデータがあると、モデルがデータからより多くのパターンと一般化を学習できるため、パフォーマンスが向上することがわかりました。
ただし、モデルでは言語間の類似性を利用してパフォーマンスを向上させることができるため、特定の言語ペアで利用できるデータが限られている場合には、関連言語も特に効果的です。
実証するために、OPUS-100 データセットを使用して、ポーランド語から英語の翻訳タスク用に mBART モデルを微調整します。
さまざまな転送ソース言語やポーランド語のさまざまなショット レベルなど、さまざまな転送学習構成の下でモデルのパフォーマンスを評価し、結果を報告します。
私たちの実験では、関連言語と大量のデータを組み合わせた方が、関連言語または大量のデータのみでトレーニングされたモデルよりも優れたパフォーマンスを発揮することがわかりました。
さらに、ゼロショット構成および少数ショット構成における関連言語の重要性を示します。

要約(オリジナル)

This paper investigates the impact of data volume and the use of similar languages on transfer learning in a machine translation task. We find out that having more data generally leads to better performance, as it allows the model to learn more patterns and generalizations from the data. However, related languages can also be particularly effective when there is limited data available for a specific language pair, as the model can leverage the similarities between the languages to improve performance. To demonstrate, we fine-tune mBART model for a Polish-English translation task using the OPUS-100 dataset. We evaluate the performance of the model under various transfer learning configurations, including different transfer source languages and different shot levels for Polish, and report the results. Our experiments show that a combination of related languages and larger amounts of data outperforms the model trained on related languages or larger amounts of data alone. Additionally, we show the importance of related languages in zero-shot and few-shot configurations.

arxiv情報

著者 Juuso Eronen,Michal Ptaszynski,Karol Nowakowski,Zheng Lin Chia,Fumito Masui
発行日 2023-06-01 13:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク