要約
コード混合は世界の多くの地域で一般的な言語慣行ですが、高品質かつ低コストのコード混合データを収集することは、自然言語処理 (NLP) 研究にとって依然として課題です。
最近の大規模言語モデル (LLM) の急増により、これらのシステムはコードが混在したデータを生成する能力がどの程度あるのかという疑問が生じています。
このペーパーでは、多言語 LLM にゼロショット方式で東南アジア (SEA) の 7 言語 (インドネシア語、マレー語、中国語、タガログ語、ベトナム語、タミル語、シングリッシュ) のコード混合データを生成させる方法を検討します。
BLOOMZ や Flan-T5-XXL などの公的に利用可能な多言語命令調整モデルでは、異なる言語のフレーズや節を含むテキストを生成できないことがわかりました。
ChatGPT はコード混合テキストを生成する際に一貫性のない機能を示し、そのパフォーマンスはプロンプト テンプレートと言語の組み合わせによって異なります。
たとえば、ChatGPT は流暢で自然なシングリッシュ (シンガポールで話される英語ベースのクレオール) テキストを生成しますが、英語とタミル語の言語ペアの場合、システムはほとんどの場合、文法的に間違っているか、意味的に意味のない発話を生成します。
さらに、プロンプトで指定されていない言語が誤って導入される可能性があります。
私たちの調査によると、既存の多言語 LLM は、SEA 言語のコード混合データ生成において幅広い習熟度を示しています。
そのため、人間による広範なチェックを行わずに、このコンテキストで LLM を使用しないことをお勧めします。
要約(オリジナル)
While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The recent proliferation of Large Language Models (LLMs) compels one to ask: how capable are these systems in generating code-mixed data? In this paper, we explore prompting multilingual LLMs in a zero-shot manner to generate code-mixed data for seven languages in South East Asia (SEA), namely Indonesian, Malay, Chinese, Tagalog, Vietnamese, Tamil, and Singlish. We find that publicly available multilingual instruction-tuned models such as BLOOMZ and Flan-T5-XXL are incapable of producing texts with phrases or clauses from different languages. ChatGPT exhibits inconsistent capabilities in generating code-mixed texts, wherein its performance varies depending on the prompt template and language pairing. For instance, ChatGPT generates fluent and natural Singlish texts (an English-based creole spoken in Singapore), but for English-Tamil language pair, the system mostly produces grammatically incorrect or semantically meaningless utterances. Furthermore, it may erroneously introduce languages not specified in the prompt. Based on our investigation, existing multilingual LLMs exhibit a wide range of proficiency in code-mixed data generation for SEA languages. As such, we advise against using LLMs in this context without extensive human checks.
arxiv情報
著者 | Zheng-Xin Yong,Ruochen Zhang,Jessica Zosa Forde,Skyler Wang,Samuel Cahyawijaya,Holy Lovenia,Genta Indra Winata,Lintang Sutawika,Jan Christian Blaise Cruz,Long Phan,Yin Lin Tan,Thamar Solorio,Alham Fikri Aji |
発行日 | 2023-09-07 03:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google