NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages

要約

タイトル:NusaX:インドネシアの10の地方言語の多言語並列感情データセット
要約:
– 自然言語処理(NLP)は、機械翻訳や検索エンジンなどの技術を通じて、社会に大きな影響を与えています。
– しかし、NLP技術は高リソース言語(英語や中国語など)に対しては広く利用可能ですが、データリソースやベンチマークが存在しないため、多くの言語にアクセスできない状況が続いています。
– この研究では、インドネシアの言語にリソースを開発することに焦点を合わせています。
– インドネシアは言語的に多様な国であり、多くの言語が危機に瀕しており、一部はすでに絶滅しています。
– この研究では、インドネシアの10の低リソース言語の最初の並列リソースを開発しました。
– リソースには、データセット、マルチタスクベンチマーク、レキシコン、インドネシア語-英語の並列データセットが含まれます。
– このリソースを作成する際の課題についての詳細な分析を提供し、インドネシア語や他の代表的でない言語のNLP研究が活発化することを期待しています。

要約(オリジナル)

Natural language processing (NLP) has a significant impact on society via technologies such as machine translation and search engines. Despite its success, NLP technology is only widely available for high-resource languages such as English and Chinese, while it remains inaccessible to many languages due to the unavailability of data resources and benchmarks. In this work, we focus on developing resources for languages in Indonesia. Despite being the second most linguistically diverse country, most languages in Indonesia are categorized as endangered and some are even extinct. We develop the first-ever parallel resource for 10 low-resource languages in Indonesia. Our resource includes datasets, a multi-task benchmark, and lexicons, as well as a parallel Indonesian-English dataset. We provide extensive analyses and describe the challenges when creating such resources. We hope that our work can spark NLP research on Indonesian and other underrepresented languages.

arxiv情報

著者 Genta Indra Winata,Alham Fikri Aji,Samuel Cahyawijaya,Rahmad Mahendra,Fajri Koto,Ade Romadhony,Kemal Kurniawan,David Moeljadi,Radityo Eko Prasojo,Pascale Fung,Timothy Baldwin,Jey Han Lau,Rico Sennrich,Sebastian Ruder
発行日 2023-04-12 16:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク