Benchmarking Pre-trained Large Language Models’ Potential Across Urdu NLP tasks

要約

多言語データで事前トレーニングされた大規模言語モデル (LLM) は、言語およびタスク固有のモデル パイプラインからさまざまなタスクに適応した単一モデルに移行することで、自然言語処理研究に革命をもたらしました。
ただし、LLM の既存の多言語 NLP ベンチマークの大部分は、言語の多様性がほとんどなく、少数の言語のみで評価データを提供します。
さらに、これらのベンチマークには、それぞれの最先端モデルに対する品質評価が欠けています。
この研究は、著名な LLM の詳細な調査を示しています。
GPT-3.5-turbo、Llama2-7B-Chat、Bloomz 7B1、および Bloomz 3B は、ゼロショット設定で 15 のウルドゥー語データセットを使用する 14 のタスクにわたって、最先端 (SOTA) モデルに対するパフォーマンスを向上させました。
比較・分析されてきました。
私たちの実験によると、SOTA モデルは、ゼロショット学習によるすべてのウルドゥー語 NLP タスクにおいて、エンコーダー/デコーダーで事前トレーニングされたすべての言語モデルを上回っています。
さらに、我々の結果は、パラメータが少なく、基本モデル内の言語固有のデータが多い LLM は、言語データが少ない、より大きな計算モデルよりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Large Language Models (LLMs) pre-trained on multilingual data have revolutionized natural language processing research, by transitioning from languages and task specific model pipelines to a single model adapted on a variety of tasks. However majority of existing multilingual NLP benchmarks for LLMs provide evaluation data in only few languages with little linguistic diversity. In addition these benchmarks lack quality assessment against the respective state-of the art models. This study presents an in-depth examination of prominent LLMs; GPT-3.5-turbo, Llama2-7B-Chat, Bloomz 7B1 and Bloomz 3B, across 14 tasks using 15 Urdu datasets, in a zero-shot setting, and their performance against state-of-the-art (SOTA) models, has been compared and analysed. Our experiments show that SOTA models surpass all the encoder-decoder pre-trained language models in all Urdu NLP tasks with zero-shot learning. Our results further show that LLMs with fewer parameters, but more language specific data in the base model perform better than larger computational models, but low language data.

arxiv情報

著者 Munief Hassan Tahir,Sana Shams,Layba Fiaz,Farah Adeeba,Sarmad Hussain
発行日 2024-05-24 11:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク