Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot

要約

アフリカの多くのコミュニティを含む多くの多言語コミュニティでは、会話中にコード交換が頻繁に行われます。
この動作は、コード スイッチド テキストの処理に優れた自然言語処理テクノロジの必要性を強調しています。
しかし、特にアフリカ言語のデータ不足は、多くの言語がリソースが不足しており、過小評価されているため、重大な課題を引き起こしています。
この研究では、GPT 3.5 にアフリカーンス語 – 英語およびヨルバ語 – 英語のコード交換文を生成するよう促し、トピックとキーワードのペア、言語ガイドライン、少数の例を使用して多様性を強化しました。
私たちの調査結果は、ヨルバ語のような非ラテン文字を使用する言語で生成される文の品質は、アフリカーンス語と英語の高い成功率と比較するとかなり低いことを示しています。
したがって、言語モデルの微調整に適した文章を生成するために、プロンプトのガイドラインを改良する注目に値する機会があります。
私たちは、GPT を使用して合成的に生成されたコード交換データの多様性を強化するためのフレームワークを提案し、このプロセスにおけるネイティブ スピーカーの重要な役割を強調しながら、リソースの少ない言語でのデータ不足を軽減するためにこのテクノロジーを活用することを提案します。

要約(オリジナル)

Many multilingual communities, including numerous in Africa, frequently engage in code-switching during conversations. This behaviour stresses the need for natural language processing technologies adept at processing code-switched text. However, data scarcity, particularly in African languages, poses a significant challenge, as many are low-resourced and under-represented. In this study, we prompted GPT 3.5 to generate Afrikaans–English and Yoruba–English code-switched sentences, enhancing diversity using topic-keyword pairs, linguistic guidelines, and few-shot examples. Our findings indicate that the quality of generated sentences for languages using non-Latin scripts, like Yoruba, is considerably lower when compared with the high Afrikaans-English success rate. There is therefore a notable opportunity to refine prompting guidelines to yield sentences suitable for the fine-tuning of language models. We propose a framework for augmenting the diversity of synthetically generated code-switched data using GPT and propose leveraging this technology to mitigate data scarcity in low-resourced languages, underscoring the essential role of native speakers in this process.

arxiv情報

著者 Michelle Terblanche,Kayode Olaleye,Vukosi Marivate
発行日 2024-04-26 07:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク