Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation

要約

短い回答評価は科学教育の重要な要素であり、学生の複雑な3次元の理解を評価できるようにします。
言語タスクで人間のような能力を備えた大規模な言語モデル(LLM)は、人間の成績を支援することにますます人気があります。
ただし、ドメインの知識におけるLLMSの制限は、タスク固有の要件に対する理解を制限し、満足のいくパフォーマンスを達成する能力を妨げます。
検索された生成(RAG)は、LLMが評価中に関連するドメイン固有の知識にアクセスできるようにすることにより、有望なソリューションとして浮上します。
この作業では、質問と学生の回答のコンテキストに基づいてドメイン固有の知識を動的に取得および組み込む自動化されたグレーディングのための適応的なRAGフレームワークを提案します。
私たちのアプローチでは、セマンティック検索とキュレーションされた教育源を組み合わせて、貴重な参照資料を取得します。
科学教育データセットの実験結果は、ベースラインLLMアプローチと比較して、システムがグレーディング精度の改善を達成することを示しています。
調査結果は、Ragで強化されたグレーディングシステムが、効率的なパフォーマンスの向上を伴う信頼できるサポートとして役立つことを示唆しています。

要約(オリジナル)

Short answer assessment is a vital component of science education, allowing evaluation of students’ complex three-dimensional understanding. Large language models (LLMs) that possess human-like ability in linguistic tasks are increasingly popular in assisting human graders to reduce their workload. However, LLMs’ limitations in domain knowledge restrict their understanding in task-specific requirements and hinder their ability to achieve satisfactory performance. Retrieval-augmented generation (RAG) emerges as a promising solution by enabling LLMs to access relevant domain-specific knowledge during assessment. In this work, we propose an adaptive RAG framework for automated grading that dynamically retrieves and incorporates domain-specific knowledge based on the question and student answer context. Our approach combines semantic search and curated educational sources to retrieve valuable reference materials. Experimental results in a science education dataset demonstrate that our system achieves an improvement in grading accuracy compared to baseline LLM approaches. The findings suggest that RAG-enhanced grading systems can serve as reliable support with efficient performance gains.

arxiv情報

著者 Yucheng Chu,Peng He,Hang Li,Haoyu Han,Kaiqi Yang,Yu Xue,Tingting Li,Joseph Krajcik,Jiliang Tang
発行日 2025-04-07 17:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク