ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning

要約

タイトル:言語モデルの多言語学習における大量言語モデルの包括的評価:ChatGPT

要約:
– 近年、大規模言語モデル(LLMs)が自然言語処理(NLP)における最も重要なブレークスルーとして登場し、研究や開発を根本的に変換している。
– ChatGPTは、多数の言語生成スキルを持ち、広く注目を集めている最新のLLMシステムの1つである。
– ChatGPTは、多言語トレーニングデータを持つため、英語以外の言語でもテキストを処理および生成できる。
– ChatGPTの英語への広範な採用を考慮すると、他の言語でもChatGPTが効果的に適用できるか、あるいはより言語固有の技術を開発する必要があるかという自然な疑問がある。
– この問いに対する答えには、多様なタスクと大規模なデータセットでChatGPTを詳細に評価する必要がある。しかしながら、これは現在の研究ではまだ不足しているか限定されている。
– 本研究では、ChatGPTを含むLLMsの包括的な情報を提供するため、多言語NLPアプリケーションにおけるChatGPTの評価のギャップを埋めることを目的としている。
– 現在の論文では7つの異なるタスクをカバーし、高、中、低および非常に低いリソースで37の異なる言語でChatGPTを評価している。
– また、一般的なユーザーとの相互作用をシミュレートするために、zero-shot learningセッティングにも焦点を当てている。
– 先行モデルのパフォーマンスと比較すると、ChatGPTは異なるNLPタスクおよび言語に対してより低いパフォーマンスを示し、多言語学習のためのより良いモデルおよび理解を開発するためのさらなる研究を求めている。

要約(オリジナル)

Over the last few years, large language models (LLMs) have emerged as the most important breakthroughs in natural language processing (NLP) that fundamentally transform research and developments in the field. ChatGPT represents one of the most exciting LLM systems developed recently to showcase impressive skills for language generation and highly attract public attention. Among various exciting applications discovered for ChatGPT in English, the model can process and generate texts for multiple languages due to its multilingual training data. Given the broad adoption of ChatGPT for English in different problems and areas, a natural question is whether ChatGPT can also be applied effectively for other languages or it is necessary to develop more language-specific technologies. The answer to this question requires a thorough evaluation of ChatGPT over multiple tasks with diverse languages and large datasets (i.e., beyond reported anecdotes), which is still missing or limited in current research. Our work aims to fill this gap for the evaluation of ChatGPT and similar LLMs to provide more comprehensive information for multilingual NLP applications. While this work will be an ongoing effort to include additional experiments in the future, our current paper evaluates ChatGPT on 7 different tasks, covering 37 diverse languages with high, medium, low, and extremely low resources. We also focus on the zero-shot learning setting for ChatGPT to improve reproducibility and better simulate the interactions of general users. Compared to the performance of previous models, our extensive experimental results demonstrate a worse performance of ChatGPT for different NLP tasks and languages, calling for further research to develop better models and understanding for multilingual learning.

arxiv情報

著者 Viet Dac Lai,Nghia Trung Ngo,Amir Pouran Ben Veyseh,Hieu Man,Franck Dernoncourt,Trung Bui,Thien Huu Nguyen
発行日 2023-04-12 05:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク