Prompting Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages

要約

コード混合は世界の多くの地域で一般的な言語慣行ですが、高品質で低コストのコード混合データを収集することは、自然言語処理 (NLP) 研究の課題として残っています。
近年の大規模言語モデル (LLM) の急増により、これらのシステムをデータ生成に使用できるかという疑問が生じています。
この記事では、東南アジア (SEA) の 5 つの言語 (インドネシア語、マレー語、中国語、タガログ語、ベトナム語、およびクレオール語のシングリッシュ) のコード混合データを作成するために、ゼロショット方式で LLM に指示する方法について説明します。
「コード混合」という用語が明示的に定義されている場合、ChatGPT が最も可能性が高く、68% の確率でコード混合テキストを生成できることがわかりました。
さらに、シングリッシュ テキストの生成における ChatGPT と InstructGPT (davinci-003) の両方のパフォーマンスは注目に値し、さまざまなプロンプトで平均 96% の成功率を示しています。
ただし、ChatGPT と InstructGPT のコード混合の習熟度は、セマンティックの不正確さにつながる単語選択エラーによって低下します。
BLOOMZ や Flan-T5-XXL などの他の多言語モデルでは、コードが混在したテキストを完全に生成することはできません。
低リソースのデータ生成の特定の形式における LLM の限られた約束を強調することにより、他のデータ不足の NLP コンテキストに同様の手法を適用する際に、慎重なアプローチを求めます。

要約(オリジナル)

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The proliferation of Large Language Models (LLMs) in recent times compels one to ask: can these systems be used for data generation? In this article, we explore prompting LLMs in a zero-shot manner to create code-mixed data for five languages in South East Asia (SEA) — Indonesian, Malay, Chinese, Tagalog, Vietnamese, as well as the creole language Singlish. We find that ChatGPT shows the most potential, capable of producing code-mixed text 68% of the time when the term ‘code-mixing’ is explicitly defined. Moreover, both ChatGPT and InstructGPT’s (davinci-003) performances in generating Singlish texts are noteworthy, averaging a 96% success rate across a variety of prompts. The code-mixing proficiency of ChatGPT and InstructGPT, however, is dampened by word choice errors that lead to semantic inaccuracies. Other multilingual models such as BLOOMZ and Flan-T5-XXL are unable to produce code-mixed texts altogether. By highlighting the limited promises of LLMs in a specific form of low-resource data generation, we call for a measured approach when applying similar techniques to other data-scarce NLP contexts.

arxiv情報

著者 Zheng-Xin Yong,Ruochen Zhang,Jessica Zosa Forde,Skyler Wang,Samuel Cahyawijaya,Holy Lovenia,Lintang Sutawika,Jan Christian Blaise Cruz,Long Phan,Yin Lin Tan,Alham Fikri Aji
発行日 2023-03-23 18:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク