Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark

要約

大規模言語モデル (LLM) の最近の進歩により、人間の言語を生成および操作する機能が大幅に強化され、さまざまなアプリケーションにわたる可能性が強調されています。
英語以外の言語で LLM を評価することは、LLM の言語的多様性、文化的関連性、および多様な世界的状況における適用性を確保し、その使いやすさと有効性を広げるために非常に重要です。
私たちは、イタリア全土の教育能力を測定するために設計された確立された評価セットである INVALSI テストを使用した構造化されたベンチマークを導入することで、この課題に取り組みます。
私たちの研究は主に 3 つの貢献をしています。 まず、INVALSI ベンチマークを自動 LLM 評価に適応させます。これには、元のテストの本質を保持しながら、自動処理に合わせてテスト形式を厳密に適応させることが含まれます。
次に、現在の LLM の詳細な評価を提供し、学術コミュニティに重要な参照点を提供します。
最後に、これらのモデルのパフォーマンスを人間の結果と視覚的に比較します。
さらに、研究者は継続的な評価のためにモデルを提出するよう求められており、ベンチマークが最新の貴重なリソースであり続けることが保証されます。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to generate and manipulate human language, highlighting their potential across various applications. Evaluating LLMs in languages other than English is crucial for ensuring their linguistic versatility, cultural relevance, and applicability in diverse global contexts, thus broadening their usability and effectiveness. We tackle this challenge by introducing a structured benchmark using the INVALSI tests, a set of well-established assessments designed to measure educational competencies across Italy. Our study makes three primary contributions: Firstly, we adapt the INVALSI benchmark for automated LLM evaluation, which involves rigorous adaptation of the test format to suit automated processing while retaining the essence of the original tests. Secondly, we provide a detailed assessment of current LLMs, offering a crucial reference point for the academic community. Finally, we visually compare the performance of these models against human results. Additionally, researchers are invited to submit their models for ongoing evaluation, ensuring the benchmark remains a current and valuable resource.

arxiv情報

著者 Fabio Mercorio,Mario Mezzanzanica,Daniele Potertì,Antonio Serino,Andrea Seveso
発行日 2024-06-25 13:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク