The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian

要約

イタリア語は高リソース言語ですが、この言語の生成大規模言語モデル (LLM) を評価するイタリア語ネイティブのベンチマークはほとんどありません。
この研究では、3 つの新しいベンチマークを示します。イタリア語での数学的理解に関するモデルのパフォーマンスを評価する Invalsi MATE、イタリア語での言語理解を評価する Invalsi ITA、およびより複雑な数学的理解を評価する Olimpiadi MATE です。
最初の 2 つのベンチマークは、イタリアの学校制度内で 6 歳から 18 歳までの生徒に実施され、教育および教育学の数人の専門家によって検証されたインヴァルシ テストに基づいています。3 番目のベンチマークはイタリアの高校数学オリンピックからのものです。

これらのベンチマークで 10 の強力な言語モデルを評価したところ、Invasli MATE では 71% の精度に制限されており、Llama 3.1 70b 命令によって達成され、Invalsi ITA では 88% の精度に達していることがわかりました。
Invalsi MATE と Invalsi ITA の両方について、LLM をイタリアの学生の平均成績と比較し、ほとんどのモデルが Invalsi ITA で優れているのに対し、Llama 3.1 だけが Invalsi MATE で優れていることを示し、次に Olimpiadi MATE の方が難しいことを示します。
Invalsi MATE よりも高く、Llama 3.1 405b 命令によって達成される最高の精度は 45% です。
論文が受理され次第、データと評価コードを公開する予定です。

要約(オリジナル)

While Italian is a high-resource language, there are few Italian-native benchmarks to evaluate generative Large Language Models (LLMs) in this language. This work presents three new benchmarks: Invalsi MATE to evaluate models performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding. The first two benchmarks are based on the Invalsi tests, which are administered to students of age between 6 and 18 within the Italian school system and have been validated by several experts in teaching and pedagogy, the third one comes from the Italian high school math Olympics. We evaluate 10 powerful language models on these benchmarks and find that they are bound by 71% accuracy on Invasli MATE, achieved by Llama 3.1 70b instruct and by 88% on Invalsi ITA. For both Invalsi MATE and Invalsi ITA we compare LLMs with the average performance of Italian students to show that Llama 3.1 is the only one to outperform them on Invalsi MATE while most models do so on Invalsi ITA, we then show that Olimpiadi MATE is more challenging than Invalsi MATE and the highest accuracy, achieved by Llama 3.1 405b instruct is 45%. We will make data and evaluation code openly available upon acceptance of the paper.

arxiv情報

著者 Giovanni Puccetti,Maria Cassese,Andrea Esuli
発行日 2024-09-17 12:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク