Ngambay-French Neural Machine Translation (sba-Fr)

要約

アフリカ、そして世界全体で、言語の壁を克服するためにニューラル機械翻訳 (NMT) システムの開発にますます注目が集まっています。
低リソース言語の NMT は、限られたラベル付きデータを使用して学習するため、特に魅力的です。
ただし、低リソース言語の適切に調整された対訳コーパスを取得するのは困難な場合があります。
いくつかの世界言語の技術進歩と、チャドの現地言語の NMT に関する研究の欠如との間の格差は顕著です。
低リソースのチャド言語でのエンドツーエンドの NMT トライアルは試みられていません。
さらに、アフリカの一部の言語とは異なり、自然言語処理の研究のためのオンラインで適切に構造化されたデータ収集が不足しています。
ただし、ガイド付きのデータ収集アプローチを使用すると、十分なデータを持つ既知の言語との多くのチャド語翻訳ペアのバイテキスト データを生成できます。
このプロジェクトでは、ガンベイ語からフランス語への翻訳のコーパスである最初の sba-Fr データセットを作成し、このデータセットを使用して 3 つの事前トレーニング済みモデルを微調整しました。
私たちの実験では、M2M100 モデルがオリジナル データとオリジナル + 合成データの両方で高い BLEU スコアを持つ他のモデルよりも優れていることがわかりました。
公開されているバイテキスト データセットは、研究目的に使用できます。

要約(オリジナル)

In Africa, and the world at large, there is an increasing focus on developing Neural Machine Translation (NMT) systems to overcome language barriers. NMT for Low-resource language is particularly compelling as it involves learning with limited labelled data. However, obtaining a well-aligned parallel corpus for low-resource languages can be challenging. The disparity between the technological advancement of a few global languages and the lack of research on NMT for local languages in Chad is striking. End-to-end NMT trials on low-resource Chad languages have not been attempted. Additionally, there is a dearth of online and well-structured data gathering for research in Natural Language Processing, unlike some African languages. However, a guided approach for data gathering can produce bitext data for many Chadian language translation pairs with well-known languages that have ample data. In this project, we created the first sba-Fr Dataset, which is a corpus of Ngambay-to-French translations, and fine-tuned three pre-trained models using this dataset. Our experiments show that the M2M100 model outperforms other models with high BLEU scores on both original and original+synthetic data. The publicly available bitext dataset can be used for research purposes.

arxiv情報

著者 Sakayo Toadoum Sari,Angela Fan,Lema Logamou Seknewna
発行日 2023-08-25 17:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク