MERA: A Comprehensive LLM Evaluation in Russian

要約

過去数年間における AI 研究の最も注目すべき進歩の 1 つは、言語モデル (LM) の台頭を筆頭に基礎モデル (FM) でした。
モデルのサイズが大きくなるにつれて、LM は測定可能な側面の強化と新しい定性的特徴の開発を示します。
ただし、研究者の注目と LM アプリケーションの急速な成長にもかかわらず、その機能、限界、および関連するリスクについては、さらによく理解する必要があります。
これらの問題に対処するために、ロシア語指向の基礎モデルを評価するための新しい命令ベンチマークである、オープンなロシア語アーキテクチャのマルチモーダル評価 (MERA) を導入します。
このベンチマークには、11 のスキル ドメインにおける生成モデルの 21 の評価タスクが含まれており、データ漏洩を確実に排除するためのブラックボックス テストとして設計されています。
この論文では、他のモダリティに拡張できるゼロショットおよび数ショット固定命令設定で FM と LM を評価する方法論を紹介します。
私たちは、評価方法論、MERA 評価用のオープンソース コード ベース、提出システムを備えたリーダーボードを提案します。
私たちはオープン LM をベースラインとして評価しましたが、人間のレベルにはまだ遠く及ばないことがわかりました。
私たちは、今後の研究を導き、画期的なモデルの機能を予測し、評価手順を標準化し、潜在的な社会的欠点に対処するために、MERA を一般公開します。

要約(オリジナル)

Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models’ size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers’ attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.

arxiv情報

著者 Alena Fenogenova,Artem Chervyakov,Nikita Martynov,Anastasia Kozlova,Maria Tikhonova,Albina Akhmetgareeva,Anton Emelyanov,Denis Shevelev,Pavel Lebedev,Leonid Sinev,Ulyana Isaeva,Katerina Kolomeytseva,Daniil Moskovskiy,Elizaveta Goncharova,Nikita Savushkin,Polina Mikhailova,Denis Dimitrov,Alexander Panchenko,Sergei Markov
発行日 2024-01-09 12:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク