Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments

要約

この研究では、微調整された大規模言語モデル (LLM) をより小さく、より効率的で正確なニューラル ネットワークに知識蒸留 (KD) する方法を提案します。
私たちは、リソースに制約のあるデバイスにこれらのモデルを展開するという課題を特にターゲットにしています。
私たちの方法論には、教師モデルとして機能する LLM の予測確率 (ソフト ラベルとして) を使用して、より小規模な生徒モデル (ニューラル ネットワーク) をトレーニングすることが含まれます。
これは、LLM の出力確率から学習するように調整された特殊な損失関数によって実現され、生徒モデルが教師のパフォーマンスを厳密に模倣することが保証されます。
KD アプローチのパフォーマンスを検証するために、科学の質問に対する学生が書いた 6,684 件の回答と、人間の専門家によって採点された学生が書いた回答を含む 3 つの数学的推論データセットを含む大規模なデータセット 7T を利用しました。
最先端 (SOTA) 蒸留モデル、TinyBERT、および人工ニューラル ネットワーク (ANN) モデルと精度を比較しました。
結果は、KD アプローチのスコアリング精度が ANN および TinyBERT よりも 1% および 4% 高く、教師モデルと同等の精度を持っていることを示しています。
さらに、学生モデルのサイズは 0.02M で、パラメータは教師モデルと TinyBERT に比べてそれぞれ 10,000 倍小さく、推論は 10 倍高速です。
この研究の重要性は、高度な AI テクノロジーを一般的な教育現場、特に自動採点において利用できるようにする可能性にあります。

要約(オリジナル)

This study proposes a method for knowledge distillation (KD) of fine-tuned Large Language Models (LLMs) into smaller, more efficient, and accurate neural networks. We specifically target the challenge of deploying these models on resource-constrained devices. Our methodology involves training the smaller student model (Neural Network) using the prediction probabilities (as soft labels) of the LLM, which serves as a teacher model. This is achieved through a specialized loss function tailored to learn from the LLM’s output probabilities, ensuring that the student model closely mimics the teacher’s performance. To validate the performance of the KD approach, we utilized a large dataset, 7T, containing 6,684 student-written responses to science questions and three mathematical reasoning datasets with student-written responses graded by human experts. We compared accuracy with state-of-the-art (SOTA) distilled models, TinyBERT, and artificial neural network (ANN) models. Results have shown that the KD approach has 1% and 4% higher scoring accuracy than ANN and TinyBERT and comparable accuracy to the teacher model. Furthermore, the student model size is 0.02M, 10,000 times smaller in parameters and x10 faster in inferencing than the teacher model and TinyBERT, respectively. The significance of this research lies in its potential to make advanced AI technologies accessible in typical educational settings, particularly for automatic scoring.

arxiv情報

著者 Ehsan Latif,Luyang Fang,Ping Ma,Xiaoming Zhai
発行日 2024-02-09 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク