要約
機械学習ベースの自動採点は、採点カテゴリ間で生徒の反応が不均衡であるという課題に直面しています。
これに対処するために、自動スコアリングにおける不均衡なデータセット向けに特別に調整された大規模生成言語モデルである GPT-4 を活用した新しいテキスト データ拡張フレームワークを導入します。
私たちの実験データセットは、4 つの科学項目に対する学生の書面による回答で構成されていました。
特に少数派のスコアリングクラスに対して応答を生成するための GPT-4 用のプロンプトを作成し、データセットを強化しました。
次に、拡張された元のデータセットに基づいて自動スコアリングができるように DistillBERT を微調整しました。
モデルのパフォーマンスは、精度、適合率、再現率、および F1 メトリクスを使用して評価されました。
私たちの調査結果では、GPT-4 拡張データを組み込むと、モデルのパフォーマンス、特に精度と F1 スコアが著しく向上したことが明らかになりました。
興味深いことに、改善の程度は特定のデータセットと使用された拡張データの割合に応じて異なりました。
特に、自動スコアリングの安定した改善を得るには、さまざまな量の拡張データ (20% ~ 40%) が必要であることがわかりました。
追加の生徒が書いた回答でトレーニングされたモデルとの比較は、GPT-4 拡張モデルが生徒データでトレーニングされたモデルと一致することを示唆しています。
この研究は、自動評価内で不均衡なデータセットに対処する際に、GPT-4 のような生成大規模言語モデルを利用したデータ拡張技術の可能性と有効性を強調しています。
要約(オリジナル)
Machine learning-based automatic scoring faces challenges with unbalanced student responses across scoring categories. To address this, we introduce a novel text data augmentation framework leveraging GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student written responses to four science items. We crafted prompts for GPT-4 to generate responses, especially for minority scoring classes, enhancing the data set. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 metrics. Our findings revealed that incorporating GPT-4-augmented data remarkedly improved model performance, particularly for precision and F1 scores. Interestingly, the extent of improvement varied depending on the specific dataset and the proportion of augmented data used. Notably, we found that a varying amount of augmented data (20%-40%) was needed to obtain stable improvement for automatic scoring. Comparisons with models trained on additional student-written responses suggest that GPT-4 augmented models match those trained with student data. This research underscores the potential and effectiveness of data augmentation techniques utilizing generative large language models like GPT-4 in addressing unbalanced datasets within automated assessment.
arxiv情報
| 著者 | Luyang Fang,Gyeong-Geon Lee,Xiaoming Zhai |
| 発行日 | 2024-09-06 03:08:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google