Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda

要約

この論文では、英語 – ルガンダ言語ペアの神経機械翻訳(NMT)モデルを強化するための半監視技術としてのバック翻訳(BT)の適用を調査し、特に低リソース言語が直面する課題に対処します。
私たちの研究の目的は、単一言語のコーパスから合成データを生成することにより、BTがバイリンガルデータの希少性をどのように軽減できるかを示すことです。
私たちの方法論では、公開されているデータとWebがクロールしたデータの両方を使用して、カスタムNMTモデルを開発し、反復的および増分バック翻訳手法を適用することが含まれます。
複数の小さなデータセットにわたってインクリメンタルバック変換のデータセットを戦略的に選択します。これは、アプローチの新しい要素です。
私たちの研究の結果は、大幅な改善を示しており、英語 – ラガンダペアの翻訳パフォーマンスは、以前のベンチマークをすべての翻訳方向に10を超えるBLEUスコアユニットを超えています。
さらに、当社の評価には、Sacrebleu、Chrf2、Terなどの包括的な評価メトリックが組み込まれており、翻訳品質の微妙な理解を提供します。
私たちの研究から得られた結論は、戦略的にキュレーションされたデータセットが利用されたときのBTの有効性を確認し、新しいパフォーマンスベンチマークを確立し、低リソース言語のNMTモデルを強化するBTの可能性を実証します。

要約(オリジナル)

In this paper,we explore the application of Back translation (BT) as a semi-supervised technique to enhance Neural Machine Translation(NMT) models for the English-Luganda language pair, specifically addressing the challenges faced by low-resource languages. The purpose of our study is to demonstrate how BT can mitigate the scarcity of bilingual data by generating synthetic data from monolingual corpora. Our methodology involves developing custom NMT models using both publicly available and web-crawled data, and applying Iterative and Incremental Back translation techniques. We strategically select datasets for incremental back translation across multiple small datasets, which is a novel element of our approach. The results of our study show significant improvements, with translation performance for the English-Luganda pair exceeding previous benchmarks by more than 10 BLEU score units across all translation directions. Additionally, our evaluation incorporates comprehensive assessment metrics such as SacreBLEU, ChrF2, and TER, providing a nuanced understanding of translation quality. The conclusion drawn from our research confirms the efficacy of BT when strategically curated datasets are utilized, establishing new performance benchmarks and demonstrating the potential of BT in enhancing NMT models for low-resource languages.

arxiv情報

著者 Richard Kimera,Dongnyeong Heo,Daniela N. Rim,Heeyoul Choi
発行日 2025-05-05 08:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク