LLMs May Perform MCQA by Selecting the Least Incorrect Option

要約

NLP の分野では、大規模言語モデル (LLM) により、さまざまなタスクにわたってパフォーマンスが大幅に向上しました。
ただし、LLM の包括的な評価は、依然としてコミュニティにとって避けられない課題です。
最近、LLM を評価するためのベンチマークとして多肢選択質問応答 (MCQA) を採用することがかなりの注目を集めています。
しかし、この評価方法の堅牢性に関する懸念は依然として残っています。
\textit{variability} の問題に関するこれまでの議論に基づいて、私たちはさらなる懸念事項を明らかにします。LLM は、明確に正しいオプションではなく、最も不正確なオプションを選択することによって MCQA を実行する可能性があります。
この観察は、LLM が複数の選択肢を正しいとみなす可能性があり、LLM を評価するための指標としての MCQA の信頼性を損なう可能性があることを示唆しています。
この課題に対処するために、MCQA+ と呼ばれる MCQA 用の強化されたデータセット拡張手法を導入して、モデルのパフォーマンスをより正確に反映します。これにより、LLM 機能の評価におけるより洗練された評価メカニズムの必要性が強調されます。

要約(オリジナル)

In the field of NLP, Large Language Models (LLMs) have markedly enhanced performance across a variety of tasks. However, the comprehensive evaluation of LLMs remains an inevitable challenge for the community. Recently, the adoption of Multiple Choice Question Answering (MCQA) as a benchmark for assessing LLMs has gained considerable traction. However, concerns regarding the robustness of this evaluative method persist. Building upon previous discussions on the issue of \textit{variability}, we reveal an additional dimension of concern: LLMs may perform MCQA by selecting the least incorrect option rather than distinctly correct. This observation suggests that LLMs might regard multiple options as correct, which could undermine the reliability of MCQA as a metric for evaluating LLMs. To address this challenge, we introduce an enhanced dataset augmentation method for MCQA, termed MCQA+, to provide a more accurate reflection of the model performance, thereby highlighting the necessity for more sophisticated evaluation mechanisms in the assessment of LLM capabilities.

arxiv情報

著者 Haochun Wang,Sendong Zhao,Zewen Qiang,Nuwa Xi,Bing Qin,Ting Liu
発行日 2024-12-06 11:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク