Preparing the Vuk’uzenzele and ZA-gov-multilingual South African multilingual corpora

要約

【タイトル】
Vuk’uzenzeleとZA-gov-multilingual南アフリカ多言語コーパスの準備

【要約】
– この論文は、南アフリカの多様な公用語で収集された2つの多言語政府テーマのコーパス、Vuk’uzenzeleとZA-gov-multilingualを紹介している。
– これらのコーパスは、南アフリカ政府新聞(Vuk’uzenzele)および南アフリカ政府スピーチ(ZA-gov-multilingual)を収集し、11の公用語全てに翻訳されたものである。
– これらのコーパスは、様々な自然言語処理(NLP)タスクに使うことができる。
– これらのコーパスは、南アフリカ政府出版物で使われる言語を研究することを目的として作成され、南アフリカ政府高官が選挙民とのコミュニケーションにどのような言葉を使うかを理解することに焦点を当てている。
– 本論文では、コーパスの収集、クリーニング、提供のプロセスに注目して説明している。
– 線形空間埋め込み(LASER)を用いてニューラル機械翻訳タスクのための平行文コーパスを作成し、多言語プレトレーニング言語モデルを調整することで9つの先住民族言語のNMTのベンチマークを提供している。

要約(オリジナル)

This paper introduces two multilingual government themed corpora in various South African languages. The corpora were collected by gathering the South African Government newspaper (Vuk’uzenzele), as well as South African government speeches (ZA-gov-multilingual), that are translated into all 11 South African official languages. The corpora can be used for a myriad of downstream NLP tasks. The corpora were created to allow researchers to study the language used in South African government publications, with a focus on understanding how South African government officials communicate with their constituents. In this paper we highlight the process of gathering, cleaning and making available the corpora. We create parallel sentence corpora for Neural Machine Translation (NMT) tasks using Language-Agnostic Sentence Representations (LASER) embeddings. With these aligned sentences we then provide NMT benchmarks for 9 indigenous languages by fine-tuning a massively multilingual pre-trained language model.

arxiv情報

著者 Richard Lastrucci,Isheanesu Dzingirai,Jenalea Rajab,Andani Madodonga,Matimba Shingange,Daniel Njini,Vukosi Marivate
発行日 2023-04-05 09:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク