Generalists vs. Specialists: Evaluating Large Language Models for Urdu

要約

本論文では、GPT-4-TurboとLlama-3-8b-Instructという汎用の事前学習済みモデルと、XLM-Roberta-large、mT5-large、Llama-3-8b-Instructという特定のタスク用に微調整された特殊なモデルを比較する。我々は7つの分類タスクと6つの生成タスクに焦点を当て、ウルドゥー語におけるこれらのモデルの性能を評価した。ウルドゥー語は7,000万人の母語話者を持つが、自然言語処理(NLP)ではまだ十分に扱われていない。大規模言語モデル(LLM)の頻繁な進歩にもかかわらず、ウルドゥー語を含む低リソース言語におけるその性能はまだ調査される必要がある。また、生成タスクの人間による評価を行い、GPT-4-TurboやLlama-3-8b-Instructによる評価結果と比較した。その結果、様々なタスクにおいて、特殊目的モデルが汎用モデルを一貫して凌駕することがわかった。また、GPT-4-Turboによる生成タスクの評価は、Llama-3-8b-Instructによる評価に比べ、人間の評価に近いことがわかった。本論文は、低リソース言語に対する汎用LLMと特定用途LLMの有効性に関する洞察を提供することで、NLPコミュニティに貢献する。

要約(オリジナル)

In this paper, we compare general-purpose pretrained models, GPT-4-Turbo and Llama-3-8b-Instruct with special-purpose models fine-tuned on specific tasks, XLM-Roberta-large, mT5-large, and Llama-3-8b-Instruct. We focus on seven classification and six generation tasks to evaluate the performance of these models on Urdu language. Urdu has 70 million native speakers, yet it remains underrepresented in Natural Language Processing (NLP). Despite the frequent advancements in Large Language Models (LLMs), their performance in low-resource languages, including Urdu, still needs to be explored. We also conduct a human evaluation for the generation tasks and compare the results with the evaluations performed by GPT-4-Turbo and Llama-3-8b-Instruct. We find that special-purpose models consistently outperform general-purpose models across various tasks. We also find that the evaluation done by GPT-4-Turbo for generation tasks aligns more closely with human evaluation compared to the evaluation by Llama-3-8b-Instruct. This paper contributes to the NLP community by providing insights into the effectiveness of general and specific-purpose LLMs for low-resource languages.

arxiv情報

著者 Samee Arif,Abdul Hameed Azeemi,Agha Ali Raza,Awais Athar
発行日 2024-07-05 12:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク