Can multiple-choice questions really be useful in detecting the abilities of LLMs?

要約

多肢選択質問 (MCQ) は、そのシンプルさと効率性により、大規模言語モデル (LLM) の評価に広く使用されています。
ただし、特に長文生成 (LFG) の回答が必要な知識集約型のシナリオでは、MCQ が LLM の機能を本当に測定できるかどうかについて懸念があります。
タスクと評価方法が一致していないため、MCQ の有効性を慎重に分析する必要があります。この論文では、中国語と英語の 2 つの言語で 4 つの質問応答 (QA) データセットに対して 9 つの LLM を評価することで分析を行います。
私たちは重要な問題を特定しました。LLM はバイリンガル MCQ で順序に敏感であり、特定の位置、つまり最初の位置にある回答を優先します。
さらに、MCQ と長文生成質問 (LFGQ) の直接出力、トークン ロジット、埋め込みを比較することで、それらの間のギャップを定量化します。
私たちの結果は、同一の質問に対する MCQ と LFGQ からの回答間の相関が比較的低いことを明らかにしました。
さらに、LLM の出力の一貫性と信頼性を定量化する 2 つの方法を提案します。これは、他の QA 評価ベンチマークに一般化できます。
特に、私たちの分析は、一貫性が高ければ高いほど精度が高くなるという考えに疑問を投げかけています。
また、MCQ は、予想される校正誤差の点で LFGQ よりも信頼性が低いこともわかりました。
最後に、MCQ と LFGQ 間の不整合は、評価パフォーマンスだけでなく、埋め込み空間にも反映されます。
私たちのコードとモデルには、https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs からアクセスできます。

要約(オリジナル)

Multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM’s capabilities, particularly in knowledge-intensive scenarios where long-form generation (LFG) answers are required. The misalignment between the task and the evaluation method demands a thoughtful analysis of MCQ’s efficacy, which we undertake in this paper by evaluating nine LLMs on four question-answering (QA) datasets in two languages: Chinese and English. We identify a significant issue: LLMs exhibit an order sensitivity in bilingual MCQs, favoring answers located at specific positions, i.e., the first position. We further quantify the gap between MCQs and long-form generation questions (LFGQs) by comparing their direct outputs, token logits, and embeddings. Our results reveal a relatively low correlation between answers from MCQs and LFGQs for identical questions. Additionally, we propose two methods to quantify the consistency and confidence of LLMs’ output, which can be generalized to other QA evaluation benchmarks. Notably, our analysis challenges the idea that the higher the consistency, the greater the accuracy. We also find MCQs to be less reliable than LFGQs in terms of expected calibration error. Finally, the misalignment between MCQs and LFGQs is not only reflected in the evaluation performance but also in the embedding space. Our code and models can be accessed at https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs.

arxiv情報

著者 Wangyue Li,Liangzhi Li,Tong Xiang,Xiao Liu,Wei Deng,Noa Garcia
発行日 2024-05-23 13:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク