MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)

要約

大規模な言語モデルの時代において、Massive Multitask Language Understanding (MMLU) のようなベンチマークは、AI がさまざまな領域にわたる言語理解と推論において達成できる限界を押し上げる上で極めて重要です。
ただし、モデルが向上し続けるにつれて、これらのベンチマークでのパフォーマンスは頭打ちになり始めており、モデルの機能の違いを識別することがますます困難になっています。
このペーパーでは、より挑戦的で推論に焦点を当てた質問を統合し、選択肢セットを 4 つから 10 つに拡張することで、主に知識主導型の MMLU ベンチマークを拡張するように設計された強化されたデータセットである MMLU-Pro を紹介します。
さらに、MMLU-Pro は、MMLU における些細で煩わしい質問を排除します。
私たちの実験結果は、MMLU-Pro が課題を高め、MMLU と比較して精度が 16% ~ 33% 大幅に低下するだけでなく、さまざまなプロンプトの下でより優れた安定性を示していることを示しています。
24 の異なるプロンプト スタイルをテストしたところ、プロンプトのバリエーションに対するモデル スコアの感度は、MMLU の 4 ~ 5% から MMLU-Pro ではわずか 2% に減少しました。
さらに、思考連鎖 (CoT) 推論を利用したモデルは、直接回答する場合と比較して、MMLU-Pro で優れたパフォーマンスを達成したことがわかりました。これは、元の MMLU での結果とはまったく対照的であり、MMLU-Pro にはより複雑な推論質問が含まれていることを示しています。
私たちの評価により、MMLU-Pro は、この分野の進歩をより適切に追跡するための、より差別的なベンチマークであることが確認されました。

要約(オリジナル)

In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.

arxiv情報

著者 Yubo Wang,Xueguang Ma,Ge Zhang,Yuansheng Ni,Abhranil Chandra,Shiguang Guo,Weiming Ren,Aaran Arulraj,Xuan He,Ziyan Jiang,Tianle Li,Max Ku,Kai Wang,Alex Zhuang,Rongqi Fan,Xiang Yue,Wenhu Chen
発行日 2024-10-07 17:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク