Preparing the Vuk’uzenzele and ZA-gov-multilingual South African multilingual corpora

要約

このペーパーでは、さまざまな南アフリカの言語で書かれた、政府をテーマにした 2 つの多言語コーパスを紹介します。
コーパスは、南アフリカ政府の新聞 (Vuk’uzenzele) と南アフリカ政府の演説 (ZA-gov-multilingual) を収集することによって収集され、南アフリカの 11 の公用語すべてに翻訳されています。
コーパスは、無数のダウンストリーム NLP タスクに使用できます。
このコーパスは、研究者が南アフリカ政府の出版物で使用されている言語を研究できるようにするために作成されたもので、南アフリカ政府の役人が有権者とどのようにコミュニケーションを取っているかを理解することに重点を置いています。
このホワイト ペーパーでは、コーパスの収集、クリーニング、および利用可能にするプロセスに焦点を当てます。
Language-Agnostic Sentence Representations (LASER) 埋め込みを使用して、Neural Machine Translation (NMT) タスク用の対訳コーパスを作成します。
これらの整列された文を使用して、大規模な多言語の事前トレーニング済み言語モデルを微調整することにより、9 つの先住民族言語の NMT ベンチマークを提供します。
\end{abstra

要約(オリジナル)

This paper introduces two multilingual government themed corpora in various South African languages. The corpora were collected by gathering the South African Government newspaper (Vuk’uzenzele), as well as South African government speeches (ZA-gov-multilingual), that are translated into all 11 South African official languages. The corpora can be used for a myriad of downstream NLP tasks. The corpora were created to allow researchers to study the language used in South African government publications, with a focus on understanding how South African government officials communicate with their constituents. In this paper we highlight the process of gathering, cleaning and making available the corpora. We create parallel sentence corpora for Neural Machine Translation (NMT) tasks using Language-Agnostic Sentence Representations (LASER) embeddings. With these aligned sentences we then provide NMT benchmarks for 9 indigenous languages by fine-tuning a massively multilingual pre-trained language model. \end{abstra

arxiv情報

著者 Richard Lastrucci,Isheanesu Dzingirai,Jenalea Rajab,Andani Madodonga,Matimba Shingange,Daniel Njini,Vukosi Marivate
発行日 2023-03-07 09:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク