Multiple-Choice Questions are Efficient and Robust LLM Evaluators

要約

50 を超えるオープンソース モデルから GSM8K と MATH に関する回答と不正確な予測を収集して構築された 2 つの多肢選択 (MC) データセットである GSM-MC と MATH-MC を紹介します。
広範な実験を通じて、これら 2 つの人気のあるベンチマークの MC バージョンでの LLM のパフォーマンスは、元のバージョンでのパフォーマンスと強く相関しており、評価時間を 1 分の 1 に短縮しながら、気を散らす要素の選択やオプションの注文に対して非常に堅牢であることがわかりました。
同様の手順に従って、他の 2 つの人気のある LLM 評価ベンチマークである HumanEval と MBPP から構築された新しいプログラム出力予測 MC データセットである PythonIO も紹介します。
データとコードは https://github.com/Geralt-Targaryen/MC-Evaluation で入手できます。

要約(オリジナル)

We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from over 50 open-source models. Through extensive experiments, we show that LLMs’ performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions, and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we also introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.

arxiv情報

著者 Ziyin Zhang,Lizhen Xu,Zhaokun Jiang,Hongkun Hao,Rui Wang
発行日 2024-05-20 11:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク