要約
そうでないかもしれない。
人気のある Massive Multitask Language Understanding (MMLU) ベンチマークのエラーを特定して分析します。
MMLU は広く採用されていますが、私たちの分析では、LLM の真の機能を曖昧にする多数のグラウンド トゥルース エラーが実証されました。
たとえば、ウイルス学のサブセットで分析された質問の 57% にエラーが含まれていることがわかります。
この問題に対処するために、新しいエラー分類法を使用してデータセットのエラーを特定するための包括的なフレームワークを導入します。
次に、MMLU-Redux を作成します。これは、30 の MMLU 主題にわたる手動で再アノテーションが付けられた 3,000 の質問のサブセットです。
MMLU-Redux を使用して、最初に報告されたモデルのパフォーマンス メトリクスとの重大な矛盾を実証します。
私たちの結果は、将来のベンチマークとしての有用性と信頼性を高めるために、MMLU のエラーだらけの質問を修正することを強く主張しています。
したがって、追加のアノテーション https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux のために MMLU-Redux を開きます。
要約(オリジナル)
Maybe not. We identify and analyse errors in the popular Massive Multitask Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted, our analysis demonstrates numerous ground truth errors that obscure the true capabilities of LLMs. For example, we find that 57% of the analysed questions in the Virology subset contain errors. To address this issue, we introduce a comprehensive framework for identifying dataset errors using a novel error taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we demonstrate significant discrepancies with the model performance metrics that were originally reported. Our results strongly advocate for revising MMLU’s error-ridden questions to enhance its future utility and reliability as a benchmark. Therefore, we open up MMLU-Redux for additional annotation https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
arxiv情報
著者 | Aryo Pradipta Gema,Joshua Ong Jun Leang,Giwon Hong,Alessio Devoto,Alberto Carlo Maria Mancino,Rohit Saxena,Xuanli He,Yu Zhao,Xiaotang Du,Mohammad Reza Ghasemi Madani,Claire Barale,Robert McHardy,Joshua Harris,Jean Kaddour,Emile van Krieken,Pasquale Minervini |
発行日 | 2024-06-07 15:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google