Matching Exemplar as Next Sentence Prediction (MeNSP): Zero-shot Prompt Learning for Automatic Scoring in Science Education

要約

科学の問題に対する学生の書面による回答を自動的に採点するモデルを開発することは、科学教育にとって重要です。
ただし、モデルのトレーニングに十分な学生の回答を収集してラベルを付けるには、時間とコストがかかります。
最近の研究では、事前にトレーニングされた言語モデル (PLM) は、プロンプトを微調整することなく、下流のタスクに適応できることが示唆されています。
しかし、科学教育においてそのような迅速なアプローチを採用した研究はありません。
学生の回答は自然言語で提示されるため、採点手順をプロンプトを使用した次の文予測タスクとして調整することで、コストのかかる微調整段階をスキップできます。
この研究では、Matching Exemplars as Next Sentence Prediction (MeNSP) を介して学生の応答を自動的に採点するゼロ ショット アプローチを開発しました。
このアプローチでは、トレーニング サンプルは使用されません。
最初に、科学的議論の 3 つの評価タスクの採点に MeNSP を適用し、機械と人間の採点が一致することを発見しました。Cohen のカッパは 0.30 から 0.57 の範囲で、F1 スコアは 0.54 から 0.81 の範囲です。
パフォーマンスを向上させるために、私たちは研究を少数のショットの設定に拡張し、ラベル付けされた学生の回答をランダムに選択するか、手動で回答を構築してモデルを微調整します。
サンプル数を増やすと、1 つのタスクのパフォーマンスが向上し、Cohen のカッパが 0.30 から 0.38 に、F1 スコアが 0.54 から 0.59 に向上することがわかりました。
他の 2 つの場合、スコアリングのパフォーマンスは向上しません。
また、ランダムに選択された少数のショットが、人間の専門家が作成したアプローチよりも優れていることもわかりました。
この研究は、モデル トレーニングのコストを大幅に削減しながら、MeNSP が学生の回答に対して参照可能な自動スコアリングを生成できることを示唆しています。
この方法は、科学教育におけるリスクの低い教室評価の実践に役立ちます。
今後の研究では、科学教育におけるさまざまな種類の評価タスクにおける MeNSP の適用可能性をさらに調査し、モデルのパフォーマンスを向上させる必要があります。

要約(オリジナル)

Developing models to automatically score students’ written responses to science problems is critical for science education. However, collecting and labeling sufficient student responses for training models is time and cost-consuming. Recent studies suggest that pre-trained language models (PLMs) can be adapted to downstream tasks without fine-tuning with prompts. However, no research has employed such a prompt approach in science education. As student responses are presented with natural language, aligning the scoring procedure as the next sentence prediction task using prompts can skip the costly fine-tuning stage. In this study, we developed a zero-shot approach to automatically score student responses via Matching Exemplars as Next Sentence Prediction (MeNSP). This approach employs no training samples. We first apply MeNSP in scoring three assessment tasks of scientific argumentation and found machine-human scoring agreements, Cohen’s Kappa ranges from 0.30 to 0.57, and F1 score ranges from 0.54 to 0.81. To improve the performance, we extend our research to the few-shots setting, either randomly selecting labeled student responses or manually constructing responses to fine-tune the models. We find that one task’s performance is improved with more samples, Cohen’s Kappa from 0.30 to 0.38, and F1 score from 0.54 to 0.59; for the two others, scoring performance is not improved. We also find that randomly selected few-shots perform better than the human expert-crafted approach. This study suggests that MeNSP can yield referable automatic scoring for student responses while significantly reducing the cost of model training. This method can benefit low-stakes classroom assessment practices in science education. Future research should further explore the applicability of the MeNSP in different types of assessment tasks in science education and improve the model performance.

arxiv情報

著者 Xuansheng Wu,Xinyu He,Tianming Liu,Ninghao Liu,Xiaoming Zhai
発行日 2023-03-17 01:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク