CodingTeachLLM: Empowering LLM’s Coding Ability via AST Prior Knowledge

要約

この論文では、コーディング教育用に設計された大規模な言語モデル(LLM)であるCodingTeachllmを紹介します。
特に、LLMのコーディング能力を高め、教育のコンテキストでより良い教育モードに導くことを目指しています。
したがって、エンドツーエンドの以前のベースの3フェーズ監視された微調整モデルを提案します。これは、従来の微調整方法よりも競争力があることが証明されています。
より具体的には、私たちのモデルは、教育知識の構造分解と増分ガイドの出力を実現します。
この目的のために、サンプラーとオーバーラップの推定ニューラルネットワークを介して3つのタイプのデータ分類を堅牢にし、ロラの微調整のために3つのバッチで事前訓練を受けたモデルに前処理データセットを注入します。
次に、以前のモジュールカップルシステムプロンプト、ベクトルデータベース、および抽象的な構文ツリータスクセグメンテーションを設計します。
最後に、圧縮方法と正則化の制約が以前のベースの微調整モデルに適用され、その後、出力端にテキストフィルターが続き、増分ガイド結果を得ます。
私たちのモデルは、豊富な教育知識、段階的なインクリメンタルな誘導出力、および回答の非開示の特徴を備えた家庭教師の役割を真に具体化する最初の研究努力を表しています。
広範な実験は、私たちのモデルがオープンソースモデルと比較して最先端のコード能力を達成し、Humaneval(@Pass 1)ベンチマークで印象的な75.10%に達することを報告しています。
さらに、我々のモデルは強力な会話機能を維持し、13Bの量子化バージョンはそれぞれMMLU、C-Eval、およびAgieval(5ショット)ダイアログ評価ベンチマークで56.34、50.60、および45.27のスコアを達成します。

要約(オリジナル)

In this paper, we introduce CodingTeachLLM, a large language model (LLM) designed for coding teaching. Specially, we aim to enhance the coding ability of LLM and lead it to better teaching mode in education context. Thus, we propose an end-to-end prior-based three-phases supervised fine-tuned model, which is proved more competitive than traditional fine-tuning method. More specifically, our model realizes the structural disassembly and incremental guided output of educational knowledge. To this end, we robustify data classification of three types via a sampler and overlap estimation neural network, and inject the preprocessing datasets into pre-trained model in three batches for LORA fine-tuning. Then, we design a prior module couples system prompt, vector databases, and abstract syntax tree task segmentation. Finally, the compression method and regularization constraint are applied to the prior-based fine-tuned model, followed by text filter at the output end to obtain incremental guided results. Our model represents the first research effort to truly embody the tutor role with the features of abundant educational knowledge, step-by-step incremental guided outputs and non-disclosure of answers. Extensive experiments report that our model also achieves state-of-the-art in code abilities compared to open-source models, reaching an impressive 75.10% on the HumanEval (@pass 1) benchmark. Additionally, our model maintains strong conversational capabilities, with the 13B quantized version achieving scores of 56.34, 50.60, and 45.27 respectively on the MMLU, C-Eval, and AGIEval (5 shot) dialogue evaluation benchmarks.

arxiv情報

著者 Zhangquan Chen,Chunjiang Liu,Haobin Duan
発行日 2025-04-01 03:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク