NusaCrowd: Open Source Initiative for Indonesian NLP Resources

要約

我々は、これまで非公開だったリソースへのアクセスを開放するなど、インドネシア語の既存のリソースを収集して統合する共同イニシアチブである NusaCrowd を紹介します。
この取り組みを通じて、137 のデータセットと 118 の標準化されたデータ ローダーをまとめました。
データセットの品質は手動および自動で評価され、その価値は複数の実験を通じて実証されています。
NusaCrowd のデータ収集により、インドネシア語とインドネシアの現地言語における自然言語の理解と生成のための初のゼロショット ベンチマークの作成が可能になります。
さらに、NusaCrowd は、インドネシア語とインドネシアの現地言語で初の多言語自動音声認識ベンチマークを作成します。
私たちの活動は、広く話されているにもかかわらず過小評価されている言語の自然言語処理 (NLP) 研究を推進することを目指しています。

要約(オリジナル)

We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd’s data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken.

arxiv情報

著者 Samuel Cahyawijaya,Holy Lovenia,Alham Fikri Aji,Genta Indra Winata,Bryan Wilie,Rahmad Mahendra,Christian Wibisono,Ade Romadhony,Karissa Vincentio,Fajri Koto,Jennifer Santoso,David Moeljadi,Cahya Wirawan,Frederikus Hudi,Ivan Halim Parmonangan,Ika Alfina,Muhammad Satrio Wicaksono,Ilham Firdausi Putra,Samsul Rahmadani,Yulianti Oenang,Ali Akbar Septiandri,James Jaya,Kaustubh D. Dhole,Arie Ardiyanti Suryani,Rifki Afina Putri,Dan Su,Keith Stevens,Made Nindyatama Nityasya,Muhammad Farid Adilazuarda,Ryan Ignatius,Ryandito Diandaru,Tiezheng Yu,Vito Ghifari,Wenliang Dai,Yan Xu,Dyah Damapuspita,Cuk Tho,Ichwanul Muslim Karo Karo,Tirana Noor Fatyanosa,Ziwei Ji,Pascale Fung,Graham Neubig,Timothy Baldwin,Sebastian Ruder,Herry Sujaini,Sakriani Sakti,Ayu Purwarianti
発行日 2023-07-21 14:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク