MERA: A Comprehensive LLM Evaluation in Russian

要約

ここ数年、AI研究において最も注目すべき進歩のひとつは、言語モデル(LM)の台頭を筆頭とする基盤モデル(FM)である。モデルの規模が大きくなるにつれて、LMは測定可能な側面の強化や新たな質的特徴の開発を示している。しかし、研究者の注目やLMの応用の急速な成長にもかかわらず、LMの能力、限界、関連するリスクはまだよく理解される必要がある。これらの問題に対処するために、我々は、ロシア語向けの基礎モデルを評価するための新しい命令ベンチマークである、オープンなMultimodal Evaluation of Russian-language Architectures (MERA)を紹介する。このベンチマークは、11のスキルドメインにおける生成モデルの21の評価タスクを含み、データ漏洩を確実に排除するためのブラックボックステストとして設計されている。本論文では、他のモダリティにも拡張可能な、ゼロショットおよび少数ショットの固定命令設定におけるFMおよびLMの評価手法を紹介する。評価手法、MERA評価のためのオープンソースコードベース、および投稿システムを備えたリーダーボードを提案する。オープンソースのLMをベースラインとして評価した結果、LMはまだ人間のレベルにはるかに及ばないことがわかった。今後の研究の指針とし、画期的なモデルの特徴を予測し、評価手順を標準化し、潜在的な社会的欠点に対処するために、MERAを公開する。

要約(オリジナル)

Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models’ size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers’ attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.

arxiv情報

著者 Alena Fenogenova,Artem Chervyakov,Nikita Martynov,Anastasia Kozlova,Maria Tikhonova,Albina Akhmetgareeva,Anton Emelyanov,Denis Shevelev,Pavel Lebedev,Leonid Sinev,Ulyana Isaeva,Katerina Kolomeytseva,Daniil Moskovskiy,Elizaveta Goncharova,Nikita Savushkin,Polina Mikhailova,Denis Dimitrov,Alexander Panchenko,Sergei Markov
発行日 2024-08-02 13:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク