要約
言語テクノロジの大部分は少数の高リソース言語に合わせて調整されていますが、比較的多くの低リソース言語は無視されています。
そのようなグループの 1 つであるクレオール言語は、その話者が機械翻訳 (MT) の恩恵を受ける可能性があるにもかかわらず、学術研究では長い間疎外されてきました。
これらの言語は主にラテンアメリカ、アフリカ、カリブ海の大部分で使用されています。
私たちは、クレオール言語 MT のこれまでで最大の累積データセットを提示します。これには、対訳付きの 1,450 万の固有のクレオール文 (うち 1,160 万は私たちが公開しています) と、これまでに収集された 41 言語についての最大のバイテキスト (21 言語については史上初) が含まれます。
さらに、172 の翻訳方向で 41 のクレオール言語すべてをサポートする MT モデルを提供します。
多様なデータセットを考慮して、これまで以上にジャンルの多様性にさらされたクレオール語 MT のモデルを作成しました。これは、34 の翻訳方向のうち 26 方向について、独自のベンチマークでジャンル固有のクレオール MT モデルを上回りました。
要約(オリジナル)
A majority of language technologies are tailored for a small number of high-resource languages, while relatively many low-resource languages are neglected. One such group, Creole languages, have long been marginalized in academic study, though their speakers could benefit from machine translation (MT). These languages are predominantly used in much of Latin America, Africa and the Caribbean. We present the largest cumulative dataset to date for Creole language MT, including 14.5M unique Creole sentences with parallel translations — 11.6M of which we release publicly, and the largest bitexts gathered to date for 41 languages — the first ever for 21. In addition, we provide MT models supporting all 41 Creole languages in 172 translation directions. Given our diverse dataset, we produce a model for Creole language MT exposed to more genre diversity than ever before, which outperforms a genre-specific Creole MT model on its own benchmark for 26 of 34 translation directions.
arxiv情報
著者 | Nathaniel R. Robinson,Raj Dabre,Ammon Shurtz,Rasul Dent,Onenamiyi Onesi,Claire Bizon Monroc,Loïc Grobol,Hasan Muhammad,Ashi Garg,Naome A. Etori,Vijay Murari Tiyyala,Olanrewaju Samuel,Matthew Dean Stutzman,Bismarck Bamfo Odoom,Sanjeev Khudanpur,Stephen D. Richardson,Kenton Murray |
発行日 | 2024-05-13 17:21:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google