MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

要約

Massive Multitask Language Understanding (MMLU) のような多肢選択質問 (MCQ) データセットは、大規模言語モデル (LLM) の常識、理解、問題解決能力を評価するために広く使用されています。
ただし、これらのベンチマークのオープンソースの性質と LLM のトレーニング データの広範なソースにより、必然的にベンチマークの汚染が生じ、信頼性の低い評価結果が得られます。
この問題を軽減するために、MMLU-CF と呼ばれる、汚染のない、より困難な MCQ ベンチマークを提案します。
このベンチマークは、意図的でないデータ漏洩と悪意のあるデータ漏洩の両方を回避することにより、LLM の世界知識の理解を再評価します。
意図しないデータ漏洩を避けるために、当社はより広範な領域からデータを調達し、3 つの汚​​染除去ルールを設計しています。
悪意のあるデータ漏洩を防ぐために、ベンチマークを同様の難易度と対象分布を持つ検証セットとテスト セットに分割します。
テスト セットは信頼性の高い結果を保証するためにクローズドソースのままですが、検証セットは透明性を促進し、独立した検証を容易にするために公開されています。
主流の LLM の評価では、強力な GPT-4o がテスト セットで 5 ショット スコア 73.4%、0 ショット スコア 71.9% しか達成していないことが明らかになりました。これは、より厳密で汚染の少ないテストを作成する上での当社のアプローチの有効性を示しています。
-無料の評価基準。
GitHub リポジトリは https://github.com/microsoft/MMLU-CF で入手でき、データセットは https://huggingface.co/datasets/microsoft/MMLU-CF を参照します。

要約(オリジナル)

Multiple-choice question (MCQ) datasets like Massive Multitask Language Understanding (MMLU) are widely used to evaluate the commonsense, understanding, and problem-solving abilities of large language models (LLMs). However, the open-source nature of these benchmarks and the broad sources of training data for LLMs have inevitably led to benchmark contamination, resulting in unreliable evaluation results. To alleviate this issue, we propose a contamination-free and more challenging MCQ benchmark called MMLU-CF. This benchmark reassesses LLMs’ understanding of world knowledge by averting both unintentional and malicious data leakage. To avoid unintentional data leakage, we source data from a broader domain and design three decontamination rules. To prevent malicious data leakage, we divide the benchmark into validation and test sets with similar difficulty and subject distributions. The test set remains closed-source to ensure reliable results, while the validation set is publicly available to promote transparency and facilitate independent verification. Our evaluation of mainstream LLMs reveals that the powerful GPT-4o achieves merely a 5-shot score of 73.4% and a 0-shot score of 71.9% on the test set, which indicates the effectiveness of our approach in creating a more rigorous and contamination-free evaluation standard. The GitHub repository is available at https://github.com/microsoft/MMLU-CF and the dataset refers to https://huggingface.co/datasets/microsoft/MMLU-CF.

arxiv情報

著者 Qihao Zhao,Yangyu Huang,Tengchao Lv,Lei Cui,Qinzheng Sun,Shaoguang Mao,Xin Zhang,Ying Xin,Qiufeng Yin,Scarlett Li,Furu Wei
発行日 2024-12-19 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク