Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study

要約

機械翻訳は近年目覚ましい進歩を遂げ、多くの言語で人間レベルに近いパフォーマンスを提供していますが、研究は主にオンラインでの存在感とリソースが豊富な高リソース言語に焦点を当てています。
大規模言語モデルの成長により、他の言語の存在によってより多くの低リソース言語がより良い結果を達成しています。
しかし、研究によると、すべての低リソース言語、特にトレーニングと評価データが不十分な言語では多言語システムの恩恵を受けられるわけではありません。
この論文では、ドイツ語とバイエルン語間の自動翻訳システムを開発するための最先端のニューラル機械翻訳技術を再検討します。
私たちは、データの不足やパラメータの敏感さなどの低リソース言語の状況を調査し、低リソースの問題に対処する洗練されたソリューションや、言語の類似性の利用などの創造的なソリューションに焦点を当てています。
私たちの実験では、逆翻訳と転移学習を適用して、より多くのトレーニング データを自動的に生成し、より高い翻訳パフォーマンスを実現します。
データにノイズがあることを実証し、テキストの前処理を広範囲に実行するアプローチを示します。
評価は、BLEU、chrF、TER の組み合わせの指標を使用して実施されました。
ボンフェローニ補正による統計的有意性の結果は、ベースライン システムが驚くほど高いこと、および逆変換が大幅な改善につながることを示しています。
さらに、翻訳エラーとシステム制限の定性分析を示します。

要約(オリジナル)

Machine Translation has made impressive progress in recent years offering close to human-level performance on many languages, but studies have primarily focused on high-resource languages with broad online presence and resources. With the help of growing Large Language Models, more and more low-resource languages achieve better results through the presence of other languages. However, studies have shown that not all low-resource languages can benefit from multilingual systems, especially those with insufficient training and evaluation data. In this paper, we revisit state-of-the-art Neural Machine Translation techniques to develop automatic translation systems between German and Bavarian. We investigate conditions of low-resource languages such as data scarcity and parameter sensitivity and focus on refined solutions that combat low-resource difficulties and creative solutions such as harnessing language similarity. Our experiment entails applying Back-translation and Transfer Learning to automatically generate more training data and achieve higher translation performance. We demonstrate noisiness in the data and present our approach to carry out text preprocessing extensively. Evaluation was conducted using combined metrics: BLEU, chrF and TER. Statistical significance results with Bonferroni correction show surprisingly high baseline systems, and that Back-translation leads to significant improvement. Furthermore, we present a qualitative analysis of translation errors and system limitations.

arxiv情報

著者 Wan-Hua Her,Udo Kruschwitz
発行日 2024-04-12 06:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク