要約
60 のオープンソース モデルから GSM8K と MATH に関する回答と不正確な予測を収集して構築された 2 つの多肢選択 (MC) データセットである GSM-MC と MATH-MC を紹介します。
広範な実験を通じて、これら 2 つの人気のあるベンチマークの MC バージョンでの LLM のパフォーマンスは、元のバージョンでのパフォーマンスと強く相関しており、評価時間を 1/2 に短縮しながら、ディストラクタの選択やオプションの注文に対して非常に堅牢であることを示しています。
同様の手順に従って、他の 2 つの人気のある LLM 評価ベンチマーク、HumanEval と MBPP から構築された新しいプログラム出力予測 MC データセットである PythonIO を紹介します。
データとコードは https://github.com/Geralt-Targaryen/MC-Evaluation で入手できます。
要約(オリジナル)
We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from 60 open-source models. Through extensive experiments, we show that LLMs’ performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks, HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.
arxiv情報
著者 | Ziyin Zhang,Lizhen Xu,Zhaokun Jiang,Hongkun Hao,Rui Wang |
発行日 | 2024-06-12 16:05:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google