要約
教育現場では、学習の進度を評価するために一般的に使用される戦略である多肢選択問題 (MCQ) の難易度の推定値は、教師と生徒の両方にとって非常に役立つ情報となります。
人間による評価はさまざまな観点からコストがかかるため、MCQ 項目の難易度を推定するための自動アプローチが研究されており、これまでのところさまざまな成功を収めています。
この問題に対する私たちのアプローチは、以前の研究とは異なる角度から取っています。さまざまな大規模言語モデルに 2 つの異なる MCQ データセットに含まれる質問に取り組むよう依頼し、モデルの不確実性を利用して項目の難易度を推定します。
ランダム フォレスト リグレッサーでモデルの不確実性特徴とテキスト特徴の両方を使用することにより、不確実性特徴が難易度の予測に大きく寄与することを示します。ここで、難易度は質問に正しく答えることができる生徒の数に反比例します。
私たちのアプローチの価値を示すことに加えて、私たちのモデルが BEA 公開データセットで最先端の結果を達成していることも観察しました。
要約(オリジナル)
In an educational setting, an estimate of the difficulty of multiple-choice questions (MCQs), a commonly used strategy to assess learning progress, constitutes very useful information for both teachers and students. Since human assessment is costly from multiple points of view, automatic approaches to MCQ item difficulty estimation are investigated, yielding however mixed success until now. Our approach to this problem takes a different angle from previous work: asking various Large Language Models to tackle the questions included in two different MCQ datasets, we leverage model uncertainty to estimate item difficulty. By using both model uncertainty features as well as textual features in a Random Forest regressor, we show that uncertainty features contribute substantially to difficulty prediction, where difficulty is inversely proportional to the number of students who can correctly answer a question. In addition to showing the value of our approach, we also observe that our model achieves state-of-the-art results on the BEA publicly available dataset.
arxiv情報
著者 | Leonidas Zotos,Hedderik van Rijn,Malvina Nissim |
発行日 | 2024-12-16 14:55:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google