要約
大規模な言語モデル(LLM)は、特に高品質のデータがしばしば制限されている英語以外の言語では、包括的に評価することが困難です。
既存のベンチマークとリーダーボードは主に英語中心であり、他の言語に対処するのはごくわずかです。
これらのベンチマークは、いくつかの重要な分野では不十分です。言語品種の多様性を見落とし、産業用関連性のタスクよりも基本的な自然言語処理(NLP)機能に優先順位を付け、静的です。
これらの側面を念頭に置いて、イベリア半島とイベロアメリカで話されている言語で、基本的および業界関連のNLPタスクの両方のLLMパフォーマンスを評価するために設計された包括的な拡張可能なベンチマークであるIberbenchを提示します。
Iberbenchは、評価キャンペーンと最近のベンチマークから101のデータセットを統合し、感情と感情分析、毒性検出、要約などの22のタスクカテゴリをカバーしています。
ベンチマークは、継続的な更新とコミュニティ主導のモデル、および専門家の委員会によって緩和されたデータセット提出を可能にすることにより、言語の多様性や静的評価のセットアップなど、現在の評価慣行の重要な制限に対処します。
1億から140億のパラメーターの範囲の23のLLMを評価し、その強みと制限に関する経験的洞察を提供します。
私たちの調査結果は、(i)LLMSが基本的なタスクよりも業界関連のタスクで機能することを示しています。
Iberbenchは、データセットの正規化とホスティング、LLMSの増分評価、公開されているリーダーボードなど、評価パイプライン全体のオープンソースの実装を提供しています。
要約(オリジナル)
Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.
arxiv情報
著者 | José Ángel González,Ian Borrego Obrador,Álvaro Romo Herrero,Areg Mikael Sarvazyan,Mara Chinea-Ríos,Angelo Basile,Marc Franco-Salvador |
発行日 | 2025-04-23 17:48:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google