MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

要約

最近、大規模言語モデル (LLM) に関する研究が急速に進歩し、その結果、いくつかの自然言語処理 (NLP) タスクが大幅に進歩しました。
その結果、モデルの機能と限界を理解するための LLM 評価研究が急増しています。
ただし、この研究の多くは英語に限定されており、英語以外の言語に対する LLM の構築と評価は比較的未開発のままです。
いくつかの新しい LLM が導入され、英語以外の言語での評価が必要になりました。
この調査は、MEGAVERSE ベンチマークを形成する 6 つの新しいデータセットを含めることにより、MEGA ベンチマーク スイートを拡張することを目的としています。
このベンチマークは、リソースの少ないアフリカ言語を含む 81 言語をカバーする 22 のデータセットで構成されています。
GPT-3.5-Turbo、GPT4、PaLM2、Llama2 などのいくつかの最先端の LLM を MEGAVERSE データセットで評価します。
さらに、2 つのマルチモーダル データセットをベンチマークに含めて、LLaVa-v1.5 モデルのパフォーマンスを評価します。
私たちの実験では、GPT4 と PaLM2 がさまざまなタスク、特に低リソース言語で Llama モデルよりも優れたパフォーマンスを発揮し、より多くのデータセットで GPT4 が PaLM2 を上回るパフォーマンスを示し、その逆も同様であることが示唆されています。
ただし、英語以外の言語での LLM パフォーマンスの正確な評価を得るには、データ汚染などの問題に対処する必要があります。

要約(オリジナル)

Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models’ capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.

arxiv情報

著者 Sanchit Ahuja,Divyanshu Aggarwal,Varun Gumma,Ishaan Watts,Ashutosh Sathe,Millicent Ochieng,Rishav Hada,Prachi Jain,Maxamed Axmed,Kalika Bali,Sunayana Sitaram
発行日 2023-11-13 16:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク