要約
大規模言語モデル(LLM)をイタリア語のタスクで評価するために設計された新しいベンチマーク、Evalita-LLMについて述べる。Evalita-LLMの特徴的で革新的な点は以下の通りである:(i)全てのタスクはネイティブのイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的バイアスを避けることができる。(ii)よく知られた複数選択タスクに加えて、このベンチマークは生成タスクを含み、LLMとのより自然なインタラクションを可能にする。我々は、候補タスクと候補プロンプトが、開発に使用されたLLMのセットに対して検証される、反復的な方法論を提案する。ベンチマークの開発段階での実験結果を報告し、いくつかの最新のLLMの性能統計値を提供する。
要約(オリジナル)
We describe Evalita-LLM, a new benchmark designed to evaluate Large Language Models (LLMs) on Italian tasks. The distinguishing and innovative features of Evalita-LLM are the following: (i) all tasks are native Italian, avoiding issues of translating from Italian and potential cultural biases; (ii) in addition to well established multiple-choice tasks, the benchmark includes generative tasks, enabling more natural interaction with LLMs; (iii) all tasks are evaluated against multiple prompts, this way mitigating the model sensitivity to specific prompts and allowing a fairer and objective evaluation. We propose an iterative methodology, where candidate tasks and candidate prompts are validated against a set of LLMs used for development. We report experimental results from the benchmark’s development phase, and provide performance statistics for several state-of-the-art LLMs.
arxiv情報
著者 | Bernardo Magnini,Roberto Zanoli,Michele Resta,Martin Cimmino,Paolo Albano,Marco Madeddu,Viviana Patti |
発行日 | 2025-02-04 12:58:19+00:00 |
arxivサイト | arxiv_id(pdf) |