Knowledge Distillation of LLM for Education

要約

この研究では、微調整された大規模言語モデル (LLM) の知識をより小さく、より効率的で正確なニューラル ネットワークに蒸留する方法を提案します。特に、リソースに制約のあるデバイスにこれらのモデルを展開するという課題をターゲットにしています。
私たちの方法論には、教師モデルとして機能する LLM の予測確率を使用して、より小さな学生モデルをトレーニングすることが含まれます。
これは、LLM の出力確率から学習するように調整された特殊な損失関数によって実現され、生徒モデルが教師のパフォーマンスを厳密に模倣することが保証されます。
このアプローチをテストするために、科学の質問に対する学生が書いた 6,684 件の回答と、学生が書いた回答を含む他の 3 つのデータセットを含む大規模なデータセット 7T を利用しました。
また、精度を検証するために、元のニューラル ネットワーク (NN) モデルとパフォーマンスを比較しました。
結果は、NN および抽出された学生モデルが 7T データセットの教師モデルと同等の精度を持っていることを示しています。
ただし、他のデータセットでは NN の精度が大幅に低い (平均 28%) ことが示されていますが、私たちが提案する蒸留モデルは依然として NN よりも 12\% 高い精度を達成できます。
さらに、スチューデント モデルのサイズは 0.1M から 0.02M の範囲であり、パラメータの点で 100 分の 1、元の出力モデルのサイズと比較すると 10 分の 1 になります。
この研究の重要性は、高度な AI テクノロジーを一般的な教育現場、特に自動採点において利用できるようにする可能性にあります。

要約(オリジナル)

This study proposes a method for distilling the knowledge of fine-tuned Large Language Models (LLMs) into a smaller, more efficient, and accurate neural network, specifically targeting the challenge of deploying these models on resource-constrained devices. Our methodology involves training the smaller student model using the prediction probabilities of the LLM, which serves as a teacher model. This is achieved through a specialized loss function tailored to learn from the LLM’s output probabilities, ensuring that the student model closely mimics the teacher’s performance. To test this approach, we utilized a large dataset, 7T, containing 6,684 student-written responses to science questions and three other datasets with student-written responses. We also compared performance with original neural network (NN) models to validate the accuracy. Results have shown that the NN and distilled student models have comparable accuracy to the teacher model for the 7T dataset; however, other datasets have shown significantly lower accuracy (28% on average) for NN, though our proposed distilled model is still able to achieve 12\% higher accuracy than NN. Furthermore, the student model size ranges from 0.1M to 0.02M, 100 times smaller in terms of parameters and ten times smaller compared with the original output model size. The significance of this research lies in its potential to make advanced AI technologies accessible in typical educational settings, particularly for automatic scoring.

arxiv情報

著者 Ehsan Latif,Luyang Fang,Ping Ma,Xiaoming Zhai
発行日 2023-12-26 01:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク