The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian

要約

イタリア語はどのような基準から見ても高リソース言語ですが、現時点では、この言語専用に事前トレーニングされた言語モデルはありません。
その結果、イタリア語の言語モデルのパフォーマンスを評価するために利用できるベンチマークの数が減ります。
この研究では、イタリア語の数学的理解と言語理解に関するモデルのパフォーマンスを評価するための 2 つの新しいベンチマークを示します。
これらのベンチマークは、イタリアの学校制度内で 11 歳から 18 歳の生徒が実施する実際のテストに基づいているため、教育学と教育学の数人の専門家によって検証されています。
このデータセットを検証するために、独自の微調整されたモデルを含む、イタリア語で書くときに最高のパフォーマンスを発揮する 9 つの言語モデルのパフォーマンスを評価しました。
現在の言語モデルの精度が 60\% に制限されている、これが困難なベンチマークであることを示します。
私たちは、このデータセットのリリースにより、将来のモデルの数学的およびイタリア語の言語理解が向上する道が開かれると信じています。

要約(オリジナル)

While Italian is by all metrics a high resource language, currently, there are isn’t a Language Model pre-trained exclusively in this language. This results in a lower number of available benchmarks to evaluate the performance of language models in Italian. This work presents two new benchmarks to evaluate the models performance on mathematical understanding and language understanding in Italian. These benchmarks are based on real tests that are undertaken by students of age between 11 and 18 within the Italian school system and have therefore been validated by several experts in didactics and pedagogy. To validate this dataset we evaluate the performance of 9 language models that are the best performing when writing in Italian, including our own fine-tuned models. We show that this is a challenging benchmark where current language models are bound by 60\% accuracy. We believe that the release of this dataset paves the way for improving future models mathematical and language understanding in Italian.

arxiv情報

著者 Andrea Esuli,Giovanni Puccetti
発行日 2024-03-27 15:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク