Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation

要約

生成 AI と大規模な言語モデルは、生徒向けに個別のフィードバックを自動的に生成することで、プログラミング教育を強化する上で大きな可能性を秘めています。
私たちは、学生がバグのあるプログラムのエラーを解決できるように、人間の家庭教師スタイルのプログラミングのヒントを提供する生成 AI モデルの役割を調査します。
最近の研究では、さまざまなフィードバック生成シナリオ向けに最先端のモデルをベンチマークしました。
ただし、全体的な品質は依然として人間の家庭教師よりも劣っており、現実世界に導入する準備がまだ整っていません。
この論文では、高品質のプログラミング ヒントを提供するために生成 AI モデルの限界を押し広げ、新しい技術 GPT4Hints-GPT3.5Val を開発することを目指しています。
最初のステップとして、私たちの技術はヒントを生成するための「教師」モデルとして GPT-4 を利用します。失敗したテスト ケースの記号情報とプロンプト内の修正を使用することで、生成の品質を高めます。
次のステップとして、私たちの技術は、より弱いモデルである GPT-3.5 を「スチューデント」モデルとして活用し、ヒントの品質をさらに検証します。このフィードバックを提供する潜在的な有用性をシミュレートすることで、自動品質検証を実行します。
基本的なアルゴリズムから正規表現、pandas ライブラリを使用したデータ分析に至るまで、さまざまな概念をカバーする Python プログラムの 3 つの実際のデータセットを使用した広範な評価を通じて、手法の有効性を示します。

要約(オリジナル)

Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a “tutor” model to generate hints — it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a “student” model to further validate the hint quality — it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library.

arxiv情報

著者 Tung Phung,Victor-Alexandru Pădurean,Anjali Singh,Christopher Brooks,José Cambronero,Sumit Gulwani,Adish Singla,Gustavo Soares
発行日 2024-08-06 12:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク