LLM-powered Data Augmentation for Enhanced Crosslingual Performance

要約

この論文は、利用可能なトレーニング データが非常に限られている、言語を超えた常識推論データセットにおけるデータ拡張に大規模言語モデル (LLM) を活用する可能性を探ることを目的としています。
これを実現するために、Dolly-v2、StableVicuna、ChatGPT、GPT-4 などのいくつかの LLM を使用して、XCOPA、XWinograd、XStoryCloze の 3 つのデータセットを強化します。
続いて、合成されたデータを使用して、より小さな言語間モデルである mBERT と XLMR を微調整することの有効性を評価します。
英語およびターゲット言語で生成されたデータとトレーニングのパフォーマンスを比較し、英語で生成されたデータをターゲット言語に翻訳します。
私たちの実験では、LLM によって生成されたデータを組み込むことの全体的な利点が明らかになりました。
英語であろうと多言語であろうと、GPT-4 によって生成された合成データでトレーニングすると、ベースラインと比較して一貫してパフォーマンスが向上します。
他のモデルも全体的なパフォーマンスの向上を示していますが、一部の設定では効果が低下します。
また、ネイティブ スピーカーに、さまざまな言語で生成された例の自然性と論理的健全性を評価してもらいます。
人間による評価では、ChatGPT や GPT-4 などの LLM が、タミル語などの一部の言語を除くほとんどの言語で自然テキストの生成に優れていることが明らかになりました。
さらに、ChatGPT は、元のデータセットと比較して、もっともらしい代替案の生成において後れを取っているのに対し、GPT-4 は、合成されたデータにおいて競合するロジックの一貫性を示しています。

要約(オリジナル)

This paper aims to explore the potential of leveraging Large Language Models (LLMs) for data augmentation in crosslingual commonsense reasoning datasets, where the available training data is extremely limited. To achieve this, we employ several LLMs including Dolly-v2, StableVicuna, ChatGPT, and GPT-4 to augment three datasets: XCOPA, XWinograd, and XStoryCloze. Subsequently, we assess the effectiveness of fine-tuning smaller crosslingual models, mBERT and XLMR, using the synthesised data. We compare the performance of training with data generated in English and target languages, as well as translating the English-generated data into the target languages. Our experiments reveal the overall advantages of incorporating data generated by LLMs. Training on synthetic data generated by GPT-4, whether English or multilingual, improves performance consistently compared to the baseline. Other models also exhibit an overall increase in performance, however, their effectiveness decreases in some settings. We also ask native speakers to evaluate the naturalness and logical soundness of the generated examples for different languages. Human evaluation reveals that LLMs like ChatGPT and GPT-4 excel at generating natural text in most languages, except a few such as Tamil. Moreover, ChatGPT trails behind in generating plausible alternatives in comparison to the original dataset, while GPT-4 demonstrates competitive logic consistency in the synthesised data.

arxiv情報

著者 Chenxi Whitehouse,Monojit Choudhury,Alham Fikri Aji
発行日 2023-05-23 17:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク