Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors

要約

大規模言語モデル (LLM) は、高品質のパーソナライズされた教育をすべての人に拡張する機会を提供します。
この手段に対する有望なアプローチは、生徒の問題解決の足場となる対話個別指導モデルを構築することです。
ただし、既存の LLM は推論の問題を解決するのには優れていますが、生徒の間違いを正確に検出し、それらの間違いに合わせてフィードバックを調整するのに苦労しています。
教師が生徒の間違いを特定し、それに基づいて応答をカスタマイズする実際の教育実践に触発され、私たちは生徒の解決策の検証に焦点を当て、そのような検証を基礎にすることで教師の応答生成の全体的な品質がどのように向上するかを示します。
最初のエラー ステップに教師が注釈を付けた 1K の段階的な数学推論チェーンのデータセットを収集します。
現在のモデルでは、生徒の解答の間違いを見つけるのが難しいことを経験的に示しています。
私たちは、これらのエラーを検出するためのいくつかの検証ツールを提案し、評価します。
自動評価と人間による評価の両方を使用して、学生の解決策検証者が、既存のベースラインと比較して、幻覚が少なく正解することが多い、学生のエラーに対する高度に的を絞った応答に向けて生成モデルを誘導することを示します。

要約(オリジナル)

Large language models (LLMs) present an opportunity to scale high-quality personalized education to all. A promising approach towards this means is to build dialog tutoring models that scaffold students’ problem-solving. However, even though existing LLMs perform well in solving reasoning questions, they struggle to precisely detect student’s errors and tailor their feedback to these errors. Inspired by real-world teaching practice where teachers identify student errors and customize their response based on them, we focus on verifying student solutions and show how grounding to such verification improves the overall quality of tutor response generation. We collect a dataset of 1K stepwise math reasoning chains with the first error step annotated by teachers. We show empirically that finding the mistake in a student solution is challenging for current models. We propose and evaluate several verifiers for detecting these errors. Using both automatic and human evaluation we show that the student solution verifiers steer the generation model towards highly targeted responses to student errors which are more often correct with less hallucinations compared to existing baselines.

arxiv情報

著者 Nico Daheim,Jakub Macina,Manu Kapur,Iryna Gurevych,Mrinmaya Sachan
発行日 2024-07-12 10:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク