Towards Cross-Lingual LLM Evaluation for European Languages

要約

大規模言語モデル (LLM) の台頭により、多数の言語やタスクにわたって自然言語処理に革命が起こりました。
ただし、複数のヨーロッパ言語にわたって一貫した意味のある方法で LLM のパフォーマンスを評価することは、特に多言語ベンチマークが不足しているため、依然として困難です。
ヨーロッパ言語に合わせた多言語評価アプローチを導入します。
当社では、広く使用されている 5 つのベンチマークの翻訳版を使用して、21 のヨーロッパ言語にわたる 40 の LLM の機能を評価しています。
私たちの貢献には、翻訳されたベンチマークの有効性の調査、さまざまな翻訳サービスの影響の評価、新しく作成されたデータセット (EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA、および EU20) を含む LLM の多言語評価フレームワークの提供が含まれます。
-GSM8K。
ベンチマークと結果は、多言語 LLM 評価におけるさらなる研究を促進するために一般に公開されます。

要約(オリジナル)

The rise of Large Language Models (LLMs) has revolutionized natural language processing across numerous languages and tasks. However, evaluating LLM performance in a consistent and meaningful way across multiple European languages remains challenging, especially due to the scarcity of multilingual benchmarks. We introduce a cross-lingual evaluation approach tailored for European languages. We employ translated versions of five widely-used benchmarks to assess the capabilities of 40 LLMs across 21 European languages. Our contributions include examining the effectiveness of translated benchmarks, assessing the impact of different translation services, and offering a multilingual evaluation framework for LLMs that includes newly created datasets: EU20-MMLU, EU20-HellaSwag, EU20-ARC, EU20-TruthfulQA, and EU20-GSM8K. The benchmarks and results are made publicly available to encourage further research in multilingual LLM evaluation.

arxiv情報

著者 Klaudia Thellmann,Bernhard Stadler,Michael Fromm,Jasper Schulze Buschhoff,Alex Jude,Fabio Barth,Johannes Leveling,Nicolas Flores-Herr,Joachim Köhler,René Jäkel,Mehdi Ali
発行日 2024-10-11 15:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク