Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs

要約

多肢選択式の質問(MCQ)の難しさは、教育評価の重要な要素です。
MCQの難易度を予測することは、正しいオプションに到達する複雑さとディストラクタの妥当性、つまり誤ったオプションの両方を理解する必要があるため、困難です。
この論文では、MCQの難しさを予測するための新しい2段階の方法を提案します。
まず、各MCQの複雑さをより適切に推定するために、大規模な言語モデル(LLM)を使用して、各オプションに到達するために必要な推論手順を強化します。
MCQ自体だけでなく、これらの推論ステップも入力として使用して、難易度を予測します。
第二に、ディストラクタの妥当性をキャプチャするために、MCQに応答する学生間の変動を説明するために、分布から知識レベルをサンプリングします。
アイテム応答理論(IRT)に触発されたこのセットアップにより、学生がそれぞれ(正確で正しくない)オプションを選択する可能性を推定できるようになります。
これらの予測は、Kullback-Leibler(KL)Divergenceベースの正規化目標を使用して、地上の真理値に合わせ、推定尤度を使用してMCQの難易度を予測します。
IRTを使用して推定されたグラウンドトゥルース難易度値を持つ2つの実世界のemph {math} MCQと応答データセットでの方法を評価します。
実験結果は、私たちの方法がすべてのベースラインよりも優れていることを示しています。平均二乗誤差の最大28.3%の減少と、測定係数の34.6 \%の改善です。
また、MCQの難易度を予測する際に、新しい方法がどのようにより高い精度をもたらすかを定性的に説明します。

要約(オリジナル)

The difficulty of multiple-choice questions (MCQs) is a crucial factor for educational assessments. Predicting MCQ difficulty is challenging since it requires understanding both the complexity of reaching the correct option and the plausibility of distractors, i.e., incorrect options. In this paper, we propose a novel, two-stage method to predict the difficulty of MCQs. First, to better estimate the complexity of each MCQ, we use large language models (LLMs) to augment the reasoning steps required to reach each option. We use not just the MCQ itself but also these reasoning steps as input to predict the difficulty. Second, to capture the plausibility of distractors, we sample knowledge levels from a distribution to account for variation among students responding to the MCQ. This setup, inspired by item response theory (IRT), enable us to estimate the likelihood of students selecting each (both correct and incorrect) option. We align these predictions with their ground truth values, using a Kullback-Leibler (KL) divergence-based regularization objective, and use estimated likelihoods to predict MCQ difficulty. We evaluate our method on two real-world \emph{math} MCQ and response datasets with ground truth difficulty values estimated using IRT. Experimental results show that our method outperforms all baselines, up to a 28.3\% reduction in mean squared error and a 34.6\% improvement in the coefficient of determination. We also qualitatively discuss how our novel method results in higher accuracy in predicting MCQ difficulty.

arxiv情報

著者 Wanyong Feng,Peter Tran,Stephen Sireci,Andrew Lan
発行日 2025-03-11 15:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク