要約
ギニアビサウ・クレオール語(Kiriol)の機械翻訳のための新しいデータセットを紹介する。このデータセットは、主に宗教的なデータ(聖書とエホバの証人のテキスト)から構成されているが、少量の一般的なデータ(辞書から)も含まれている。これは、多くの低リソース言語の典型的なリソース利用可能性を反映している。我々は、宗教データからより一般的なドメインへのドメイン転送を改善する方法を調査するために、多くの変換器ベースのモデルを訓練する。その結果、学習時にターゲットドメインから300文でも追加することで、翻訳性能が大幅に向上することがわかり、小規模であっても低リソース言語のデータ収集の重要性と必要性が浮き彫りになった。さらに、ポルトガル語-キリオール語の翻訳モデルは、他の原語と訳語のペアに比べて平均的に優れた性能を示すことを発見し、このことが、関係する言語の形態素の複雑さや、クレオールと語彙間の語彙的重複の程度とどのように関係しているかを調査した。全体として、私たちの研究がKiriolの研究を刺激し、機械翻訳が一般的なクレオール言語をよりよくサポートできるようになることを期待しています。
要約(オリジナル)
We introduce a new dataset for machine translation of Guinea-Bissau Creole (Kiriol), comprising around 40 thousand parallel sentences to English and Portuguese. This dataset is made up of predominantly religious data (from the Bible and texts from the Jehovah’s Witnesses), but also a small amount of general domain data (from a dictionary). This mirrors the typical resource availability of many low resource languages. We train a number of transformer-based models to investigate how to improve domain transfer from religious data to a more general domain. We find that adding even 300 sentences from the target domain when training substantially improves the translation performance, highlighting the importance and need for data collection for low-resource languages, even on a small-scale. We additionally find that Portuguese-to-Kiriol translation models perform better on average than other source and target language pairs, and investigate how this relates to the morphological complexity of the languages involved and the degree of lexical overlap between creoles and lexifiers. Overall, we hope our work will stimulate research into Kiriol and into how machine translation might better support creole languages in general.
arxiv情報
| 著者 | Jacqueline Rowe,Edward Gow-Smith,Mark Hepple |
| 発行日 | 2025-04-03 15:14:19+00:00 |
| arxivサイト | arxiv_id(pdf) |