Fine-tuning ChatGPT for Automatic Scoring

要約

この研究は、科学教育における評価タスクの例を使用して、生徒の作成された回答を自動的に採点するための、微調整された ChatGPT (GPT-3.5) の可能性を強調しています。
OpenAI の生成モデル GPT-3.5 に関する最近の研究では、高精度で人間に似た応答で自然言語を予測する点でその優位性が証明されました。
GPT-3.5 は、雑誌やウィキペディアなどの膨大なオンライン言語資料を使用してトレーニングされています。
したがって、学生は訓練された教材とは異なる言語を使用するため、自動採点には事前訓練された GPT-3.5 を直接使用するだけでは不十分です。
これらは、特定のタスクのデータに対して微調整されたドメイン固有のモデルがモデルのパフォーマンスを向上できることを意味します。
この研究では、中学生と高校生の反応と専門家の採点の多様なデータセットを使用して、6 つの評価タスクに関して GPT-3.5 を微調整しました。
6 つのタスクは、2 つのマルチラベル評価タスクと 4 つのマルチクラス評価タスクで構成されます。
微調整された GPT-3.5 のパフォーマンスを、微調整された Google が生成した最先端の言語モデルである BERT と比較します。
結果は、BERT の科学の質問と回答から構築されたドメイン内トレーニング コーパスが平均精度 = 0.838、SD = 0.069 を達成したことを示しています。
GPT-3.5 は、6 つのタスクの自動採点精度 (平均 = 9.15、SD = 0.042) の顕著な平均増加 (9.1%) を示します (p =0.001 < 0.05)。 具体的には、複数ラベルのタスク (項目 1 に 5 つのラベル、項目 2 に 10 個のラベル) の場合、GPT-3.5 はすべてのラベルにわたって BERT よりも大幅に高いスコア精度を達成し、2 番目の項目では 7.1% の向上を達成しました。 GPT-3.5 の 4 つのマルチクラス項目の平均スコア増加は、BERT と比較して 10.6% でした。 私たちの研究では、教育における分野固有のデータに対する学生の回答を高精度で自動採点するための、微調整された GPT-3.5 の有効性が確認されました。 私たちは公共利用とコミュニティ参加のために微調整されたモデルをリリースしました。

要約(オリジナル)

This study highlights the potential of fine-tuned ChatGPT (GPT-3.5) for automatically scoring student written constructed responses using example assessment tasks in science education. Recent studies on OpenAI’s generative model GPT-3.5 proved its superiority in predicting the natural language with high accuracy and human-like responses. GPT-3.5 has been trained over enormous online language materials such as journals and Wikipedia; therefore, more than direct usage of pre-trained GPT-3.5 is required for automatic scoring as students utilize a different language than trained material. These imply that a domain-specific model, fine-tuned over data for specific tasks, can enhance model performance. In this study, we fine-tuned GPT-3.5 on six assessment tasks with a diverse dataset of middle-school and high-school student responses and expert scoring. The six tasks comprise two multi-label and four multi-class assessment tasks. We compare the performance of fine-tuned GPT-3.5 with the fine-tuned state-of-the-art Google’s generated language model, BERT. The results show that in-domain training corpora constructed from science questions and responses for BERT achieved average accuracy = 0.838, SD = 0.069. GPT-3.5 shows a remarkable average increase (9.1%) in automatic scoring accuracy (mean = 9.15, SD = 0.042) for the six tasks, p =0.001 < 0.05. Specifically, for multi-label tasks (item 1 with 5 labels; item 2 with 10 labels), GPT-3.5 achieved significantly higher scoring accuracy than BERT across all the labels, with the second item achieving a 7.1% increase. The average scoring increase for the four multi-class items for GPT-3.5 was 10.6% compared to BERT. Our study confirmed the effectiveness of fine-tuned GPT-3.5 for automatic scoring of student responses on domain-specific data in education with high accuracy. We have released fine-tuned models for public use and community engagement.

arxiv情報

著者 Ehsan Latif,Xiaoming Zhai
発行日 2023-12-26 01:13:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク