Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation

要約

生成 AI と大規模言語モデルは、学習者に個別のフィードバックとヒントを生成することで、プログラミング教育を強化する上で大きな期待を集めています。
最近の取り組みは主に、人間の講師の品質を達成するために、生成されるフィードバックの品質を向上させることに焦点を当てています。
品質は重要なパフォーマンス基準ですが、実際の教育展開を最適化するための唯一の基準ではありません。
このペーパーでは、品質、コスト、時間、データ プライバシーなど、いくつかのパフォーマンス基準にわたってプログラミング フィードバック生成の言語モデルをベンチマークします。
重要なアイデアは、ブラウザ内推論の新しいパラダイムにおける最近の進歩を活用することです。これにより、これらのモデルをブラウザ内で直接実行できるようになり、コストとデータ プライバシー全体に直接的なメリットがもたらされます。
ブラウザ内推論エンジンと互換性のある小規模モデルのフィードバック品質を高めるために、GPT-4 で生成された合成データに基づいて微調整パイプラインを開発します。
3 つの異なる Python プログラミング データセットで WebLLM のブラウザ内推論エンジンを使用して、微調整された Llama3-8B および Phi3-3.8B 4 ビット量子化モデルの有効性を紹介します。
ブラウザー内言語モデルのさらなる研究を促進するために、Web アプリおよびデータセットとともに完全な実装をリリースする予定です。

要約(オリジナル)

Generative AI and large language models hold great promise in enhancing programming education by generating individualized feedback and hints for learners. Recent works have primarily focused on improving the quality of generated feedback to achieve human tutors’ quality. While quality is an important performance criterion, it is not the only criterion to optimize for real-world educational deployments. In this paper, we benchmark language models for programming feedback generation across several performance criteria, including quality, cost, time, and data privacy. The key idea is to leverage recent advances in the new paradigm of in-browser inference that allow running these models directly in the browser, thereby providing direct benefits across cost and data privacy. To boost the feedback quality of small models compatible with in-browser inference engines, we develop a fine-tuning pipeline based on GPT-4 generated synthetic data. We showcase the efficacy of fine-tuned Llama3-8B and Phi3-3.8B 4-bit quantized models using WebLLM’s in-browser inference engine on three different Python programming datasets. We will release the full implementation along with a web app and datasets to facilitate further research on in-browser language models.

arxiv情報

著者 Nachiket Kotalwar,Alkis Gotovos,Adish Singla
発行日 2024-06-07 16:22:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク