要約
人工知能(AI)技術の台頭、特に大規模な言語モデル(LLM)は、教育分野に大きな進歩をもたらしました。
さまざまなアプリケーションの中で、オープンエンドのテキスト応答の評価に焦点を当てた自動短い回答グレーディング(ASAG)は、LLMSの導入で顕著な進歩を遂げています。
これらのモデルは、従来のASAGアプローチと比較してグレーディングパフォーマンスを向上させるだけでなく、事前に定義された「ゴールデン」回答との単純な比較を超えて移動し、ルーブリックベースの評価などのより洗練されたグレーディングシナリオを可能にします。
ただし、既存のLLM駆動方法は、完全に自動化されたアプローチに依存しているため、ルーブリックベースの評価で人間レベルのグレーディングパフォーマンスを達成する上で依然として課題に直面しています。
この作業では、人間のループ(HITL)アプローチを通じてインタラクティブな機能を活用することにより、ASAGタスクにおけるLLMSの可能性を調査します。
提案されたフレームワークであるGradeHitlは、LLMの生成特性を利用して、人間の専門家に質問を投げかけ、グレーディングルーブリックを動的に洗練するための洞察を取り入れています。
この適応プロセスは、グレーディングの精度を大幅に改善し、既存の方法を上回り、ASAGを人間レベルの評価に近づけます。
要約(オリジナル)
The rise of artificial intelligence (AI) technologies, particularly large language models (LLMs), has brought significant advancements to the field of education. Among various applications, automatic short answer grading (ASAG), which focuses on evaluating open-ended textual responses, has seen remarkable progress with the introduction of LLMs. These models not only enhance grading performance compared to traditional ASAG approaches but also move beyond simple comparisons with predefined ‘golden’ answers, enabling more sophisticated grading scenarios, such as rubric-based evaluation. However, existing LLM-powered methods still face challenges in achieving human-level grading performance in rubric-based assessments due to their reliance on fully automated approaches. In this work, we explore the potential of LLMs in ASAG tasks by leveraging their interactive capabilities through a human-in-the-loop (HITL) approach. Our proposed framework, GradeHITL, utilizes the generative properties of LLMs to pose questions to human experts, incorporating their insights to refine grading rubrics dynamically. This adaptive process significantly improves grading accuracy, outperforming existing methods and bringing ASAG closer to human-level evaluation.
arxiv情報
著者 | Hang Li,Yucheng Chu,Kaiqi Yang,Yasemin Copur-Gencturk,Jiliang Tang |
発行日 | 2025-04-07 16:23:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google