要約
インドネシア語の既存リソースを収集し、統一するための共同イニシアティブであるNusaCrowdを紹介します。このイニシアチブを通じて、我々は137のデータセットと118の標準化されたデータローダーを集めました。データセットの品質は手動および自動で評価され、その価値は複数の実験を通して実証されています。NusaCrowdのデータ収集により、インドネシア語およびインドネシアのローカル言語における自然言語理解と生成のための最初のゼロショット・ベンチマークを作成することができます。さらに、NusaCrowdは、インドネシア語およびインドネシアのローカル言語における初の多言語自動音声認識ベンチマークの作成を可能にしました。私たちの仕事は、広く話されているにもかかわらず、十分に説明されていない言語の自然言語処理(NLP)研究を進めることに努めています。
要約(オリジナル)
We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd’s data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken.
arxiv情報
| 著者 | Samuel Cahyawijaya,Holy Lovenia,Alham Fikri Aji,Genta Indra Winata,Bryan Wilie,Rahmad Mahendra,Christian Wibisono,Ade Romadhony,Karissa Vincentio,Fajri Koto,Jennifer Santoso,David Moeljadi,Cahya Wirawan,Frederikus Hudi,Ivan Halim Parmonangan,Ika Alfina,Muhammad Satrio Wicaksono,Ilham Firdausi Putra,Samsul Rahmadani,Yulianti Oenang,Ali Akbar Septiandri,James Jaya,Kaustubh D. Dhole,Arie Ardiyanti Suryani,Rifki Afina Putri,Dan Su,Keith Stevens,Made Nindyatama Nityasya,Muhammad Farid Adilazuarda,Ryan Ignatius,Ryandito Diandaru,Tiezheng Yu,Vito Ghifari,Wenliang Dai,Yan Xu,Dyah Damapuspita,Cuk Tho,Ichwanul Muslim Karo Karo,Tirana Noor Fatyanosa,Ziwei Ji,Pascale Fung,Graham Neubig,Timothy Baldwin,Sebastian Ruder,Herry Sujaini,Sakriani Sakti,Ayu Purwarianti |
| 発行日 | 2023-06-05 17:17:53+00:00 |
| arxivサイト | arxiv_id(pdf) |