A quantitative study of NLP approaches to question difficulty estimation

要約

近年、問題調整に対する従来のアプローチの限界を克服することを目的として、自然言語処理 (NLP) 技術を使用したテキスト QDET からの問題難易度推定タスクに関する研究の量が増加しています。
しかし、これまでの研究のほぼ全体は単一のサイロに焦点を当てており、異なるモデル間や異なる教育分野のデータセット間の定量的な比較は行われていませんでした。
この研究では、以前の研究で提案されたいくつかのアプローチを定量的に分析し、さまざまな教育領域からのさまざまな種類の質問を含む 3 つの公的に利用可能な現実世界のデータセットでそれらのパフォーマンスを比較することによって、このギャップを埋めることを目的としています。
具体的には、読解の多肢選択問題 (MCQ)、科学の MCQ、数学の問題を検討します。
Transformer ベースのモデルは、さまざまな教育ドメインにわたって最高のパフォーマンスを示し、DistilBERT は BERT とほぼ同じパフォーマンスを示し、小規模なデータセットでも他のアプローチよりも優れていることがわかりました。
他のモデルに関しては、ハイブリッドモデルは単一タイプの特徴に基づくモデルよりも優れていることが多く、言語特徴に基づくモデルは読解問題で優れたパフォーマンスを発揮しますが、頻度ベースの特徴 (TF-IDF) と単語埋め込み (word2vec) は優れたパフォーマンスを発揮します。
ドメイン知識の評価が向上します。

要約(オリジナル)

Recent years witnessed an increase in the amount of research on the task of Question Difficulty Estimation from Text QDET with Natural Language Processing (NLP) techniques, with the goal of targeting the limitations of traditional approaches to question calibration. However, almost the entirety of previous research focused on single silos, without performing quantitative comparisons between different models or across datasets from different educational domains. In this work, we aim at filling this gap, by quantitatively analyzing several approaches proposed in previous research, and comparing their performance on three publicly available real world datasets containing questions of different types from different educational domains. Specifically, we consider reading comprehension Multiple Choice Questions (MCQs), science MCQs, and math questions. We find that Transformer based models are the best performing across different educational domains, with DistilBERT performing almost as well as BERT, and that they outperform other approaches even on smaller datasets. As for the other models, the hybrid ones often outperform the ones based on a single type of features, the ones based on linguistic features perform well on reading comprehension questions, while frequency based features (TF-IDF) and word embeddings (word2vec) perform better in domain knowledge assessment.

arxiv情報

著者 Luca Benedetto
発行日 2023-05-17 14:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク