要約
インドネシア語 NLP に関しては大きな進歩が見られました。
それにもかかわらず、日常会話では多くの言語が頻繁にインドネシア語と混合されるにもかかわらず、インドネシア語におけるコード混合現象の調査は限られています。
この研究では、英語、スンダ語、ジャワ語、マレー語の 4 つの埋め込み言語とインドネシア語のコード混合を調査します。
コード混合の堅牢性を評価および改善するためのフレームワークである IndoRobusta を紹介します。
私たちの分析では、言語の多様性が高いにもかかわらず、他の現地言語と比較した場合、トレーニング前のコーパスのバイアスが、インドネシア語と英語のコード混合をうまく処理するモデルの能力に影響を与えていることがわかりました。
要約(オリジナル)
Significant progress has been made on Indonesian NLP. Nevertheless, exploration of the code-mixing phenomenon in Indonesian is limited, despite many languages being frequently mixed with Indonesian in daily conversation. In this work, we explore code-mixing in Indonesian with four embedded languages, i.e., English, Sundanese, Javanese, and Malay; and introduce IndoRobusta, a framework to evaluate and improve the code-mixing robustness. Our analysis shows that the pre-training corpus bias affects the model’s ability to better handle Indonesian-English code-mixing when compared to other local languages, despite having higher language diversity.
arxiv情報
著者 | Muhammad Farid Adilazuarda,Samuel Cahyawijaya,Genta Indra Winata,Pascale Fung,Ayu Purwarianti |
発行日 | 2023-11-21 07:50:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google