Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models

要約

大規模言語モデル (LLM) は、GPT-3.5 や GPT-4 などの LLM 上に構築されたチャットベースのモデルである ChatGPT を含め、微調整を必要とせずにさまざまなダウンストリーム タスクで優れたパフォーマンスを実証しています。
英語に比べてトレーニングの割合が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を発揮します。
この研究では、感情分析、翻訳、音訳、言い換え、品詞タグ付け、要約、発音区別符号化という 7 つの異なるアラビア語 NLP タスクにおける GPT-3.5 および GPT-4 モデルのパフォーマンスを評価します。
私たちの調査結果では、7 つのタスクのうち 5 つにおいて GPT-4 が GPT-3.5 よりも優れていることが明らかになりました。
さらに、感情分析タスクの広範な分析を実施し、LLM が困難な方言データセットでどのように優れた結果を達成するかについての洞察を提供します。
さらに、これらのタスクの評価を容易にする新しい Python インターフェイス https://github.com/ARBML/Taqyim を導入します。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive performance on various downstream tasks without requiring fine-tuning, including ChatGPT, a chat-based model built on top of LLMs such as GPT-3.5 and GPT-4. Despite having a lower training proportion compared to English, these models also exhibit remarkable capabilities in other languages. In this study, we assess the performance of GPT-3.5 and GPT-4 models on seven distinct Arabic NLP tasks: sentiment analysis, translation, transliteration, paraphrasing, part of speech tagging, summarization, and diacritization. Our findings reveal that GPT-4 outperforms GPT-3.5 on five out of the seven tasks. Furthermore, we conduct an extensive analysis of the sentiment analysis task, providing insights into how LLMs achieve exceptional results on a challenging dialectal dataset. Additionally, we introduce a new Python interface https://github.com/ARBML/Taqyim that facilitates the evaluation of these tasks effortlessly.

arxiv情報

著者 Zaid Alyafeai,Maged S. Alshaibani,Badr AlKhamissi,Hamzah Luqman,Ebrahim Alareqi,Ali Fadel
発行日 2023-06-28 15:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク