How good are Large Language Models on African Languages?

要約

自然言語処理の最近の進歩により、大規模言語モデル (LLM) が急増しました。
これらのモデルは、トレーニングされていないタスクや言語であっても、コンテキスト内学習を使用して優れたパフォーマンスを生み出すことが示されています。
ただし、アフリカ言語でのパフォーマンスは、高リソース言語に比べてほとんど研究されていません。
60 のアフリカ言語にわたる 6 つのタスク (トピック分類、感情分類、機械翻訳、要約、質問応答、固有表現認識) に関する 4 つの一般的な大規模言語モデル (mT0、Aya、LLaMa 2、および GPT-4) の分析を示します。
、さまざまな言語族と地理的地域にまたがります。
私たちの結果は、アフリカ言語ではすべての LLM のパフォーマンスが低く、ほとんどのタスクでは高リソース言語 (英語など) と比較してパフォーマンスに大きな差があることを示唆しています。
GPT-4 は、分類タスクでは平均から良好なパフォーマンスを発揮しますが、機械翻訳や要約などの生成タスクではパフォーマンスが大幅に不足していることがわかりました。
驚くべきことに、mT0 は言語を超えた QA において全体的なパフォーマンスが最高であり、アフリカ言語では最先端の教師ありモデル (つまり、微調整された mT5) や GPT-4 よりも優れていることがわかりました。
同様に、最近のAyaモデルは、mT0を上回るトピック分類を除いて、ほぼすべてのタスクにおいてmT0と同等の結果を示していることがわかります。
全体として、LLaMa 2 は最悪のパフォーマンスを示しましたが、これは英語とコード中心の (約 98%) 事前トレーニング コーパスによるものと考えられます。
私たちの調査結果は、アフリカ言語でのパフォーマンスが現在のLLMにとって引き続きハードルであることを裏付けており、このギャップを埋めるためにさらなる努力が必要であることを強調しています。

要約(オリジナル)

Recent advancements in natural language processing have led to the proliferation of large language models (LLMs). These models have been shown to yield good performance, using in-context learning, even on tasks and languages they are not trained on. However, their performance on African languages is largely understudied relative to high-resource languages. We present an analysis of four popular large language models (mT0, Aya, LLaMa 2, and GPT-4) on six tasks (topic classification, sentiment classification, machine translation, summarization, question answering, and named entity recognition) across 60 African languages, spanning different language families and geographical regions. Our results suggest that all LLMs produce lower performance for African languages, and there is a large gap in performance compared to high-resource languages (such as English) for most tasks. We find that GPT-4 has an average to good performance on classification tasks, yet its performance on generative tasks such as machine translation and summarization is significantly lacking. Surprisingly, we find that mT0 had the best overall performance for cross-lingual QA, better than the state-of-the-art supervised model (i.e. fine-tuned mT5) and GPT-4 on African languages. Similarly, we find the recent Aya model to have comparable result to mT0 in almost all tasks except for topic classification where it outperform mT0. Overall, LLaMa 2 showed the worst performance, which we believe is due to its English and code-centric~(around 98%) pre-training corpus. Our findings confirms that performance on African languages continues to remain a hurdle for the current LLMs, underscoring the need for additional efforts to close this gap.

arxiv情報

著者 Jessica Ojo,Kelechi Ogueji,Pontus Stenetorp,David Ifeoluwa Adelani
発行日 2024-04-30 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク