Open Source Language Models Can Provide Feedback: Evaluating LLMs’ Ability to Help Students Using GPT-4-As-A-Judge

要約

大規模言語モデル (LLM) は、幅広いコンピューティング コンテキストでのフィードバックの自動生成に大きな可能性を示しています。
ただし、学生の作品を独自のモデルに送信することのプライバシーと倫理的影響に関して懸念の声が上がっています。
これにより、教育におけるオープンソース LLM の使用に対する大きな関心が高まっていますが、そのようなオープン モデルが生成できるフィードバックの質については、まだ十分に研究されていません。
生成されたフィードバックに欠陥や誤解を招くものを提供すると、生徒の学習に悪影響を与える可能性があるため、これは懸念事項です。
GPT-4 などの非常に強力な LLM を利用して、それほど強力ではないモデルによって生成される出力を評価する最近の研究に触発され、入門ツールのデータセットを使用して、いくつかのオープンソース モデルによって生成されるフィードバックの品質の自動分析を実行します。
プログラミングコース。
まず、GPT-4 の評価を人間の専門家の評価と比較することにより、自動評価ツールとして GPT-4 を採用する可能性を調査します。
GPT-4 は人間の評価者と中程度の一致を示しながら、フィードバックを肯定的に評価する傾向を示し、フィードバック評価者としての可能性を示していることが観察されています。
次に、GPT-4 を使用してフィードバックを評価することにより、いくつかの主要なオープンソース LLM によって生成されたフィードバックの品質を調査します。
一部のモデルは、ChatGPT などの一般的な独自の LLM と競合するパフォーマンスを提供していることがわかり、教育現場で責任を持って使用する機会があることがわかりました。

要約(オリジナル)

Large language models (LLMs) have shown great potential for the automatic generation of feedback in a wide range of computing contexts. However, concerns have been voiced around the privacy and ethical implications of sending student work to proprietary models. This has sparked considerable interest in the use of open source LLMs in education, but the quality of the feedback that such open models can produce remains understudied. This is a concern as providing flawed or misleading generated feedback could be detrimental to student learning. Inspired by recent work that has utilised very powerful LLMs, such as GPT-4, to evaluate the outputs produced by less powerful models, we conduct an automated analysis of the quality of the feedback produced by several open source models using a dataset from an introductory programming course. First, we investigate the viability of employing GPT-4 as an automated evaluator by comparing its evaluations with those of a human expert. We observe that GPT-4 demonstrates a bias toward positively rating feedback while exhibiting moderate agreement with human raters, showcasing its potential as a feedback evaluator. Second, we explore the quality of feedback generated by several leading open-source LLMs by using GPT-4 to evaluate the feedback. We find that some models offer competitive performance with popular proprietary LLMs, such as ChatGPT, indicating opportunities for their responsible use in educational settings.

arxiv情報

著者 Charles Koutcheme,Nicola Dainese,Sami Sarsa,Arto Hellas,Juho Leinonen,Paul Denny
発行日 2024-05-08 17:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク