Code Soliloquies for Accurate Calculations in Large Language Models

要約

大規模言語モデル (LLM) バックエンドを採用したインテリジェント個別指導システム (ITS) の開発を成功させるには、高品質の会話データセットが不可欠です。
これらのデータセットを使用して LLM バックエンドを微調整すると、学生と ITS 間のやり取りの品質が大幅に向上します。
これらのデータセットを開発するための一般的な戦略には、高度な GPT-4 モデルを使用して生徒と教師の合成対話を生成することが含まれます。
ただし、物理学のような科目でよくある複雑な計算がこれらの対話で要求される場合、課題が発生します。
GPT-4 の高度な機能にもかかわらず、GPT-4 のパフォーマンスは、単純な乗算タスクさえも確実に処理するには不十分であり、これらの主題に対する GPT-4 の有用性には大きな制限があります。
これらの課題に対処するために、このペーパーでは革新的なステートフル プロンプト設計を紹介します。
私たちのアプローチでは、学生と講師ボットの間の模擬会話が生成され、両方の役割が GPT-4 によってシミュレートされます。
各生徒の応答は GPT 講師ボット内で独り言 (内なる独白) をトリガーし、その応答が計算を必要とするかどうかを評価します。
そうであれば、必要なコードを Python でスクリプト化し、その結果の出力を使用して生徒への応答を作成します。
私たちのアプローチは、特に計算集約型の主題について、合成会話データセットの品質を著しく向上させます。
私たちの調査結果は、ヒッグス モデル (新しいステートフル プロンプト設計を通じて生成されたデータセットで微調整された LLaMA) が、計算に Python をうまく利用していることを示しています。
その結果、コードの独り言が豊富に含まれたデータセットを使用して微調整すると、ヒッグスの応答の精度だけでなく計算上の信頼性も向上します。

要約(オリジナル)

High-quality conversational datasets are integral to the successful development of Intelligent Tutoring Systems (ITS) that employ a Large Language Model (LLM) backend. These datasets, when used to fine-tune the LLM backend, significantly enhance the quality of interactions between students and ITS. A common strategy for developing these datasets involves generating synthetic student-teacher dialogues using advanced GPT-4 models. However, challenges arise when these dialogues demand complex calculations, common in subjects like physics. Despite its advanced capabilities, GPT-4’s performance falls short in reliably handling even simple multiplication tasks, marking a significant limitation in its utility for these subjects. To address these challenges, this paper introduces an innovative stateful prompt design. Our approach generates a mock conversation between a student and a tutorbot, both roles simulated by GPT-4. Each student response triggers a soliloquy (an inner monologue) in the GPT-tutorbot, which assesses whether its response would necessitate calculations. If so, it proceeds to script the required code in Python and then uses the resulting output to construct its response to the student. Our approach notably enhances the quality of synthetic conversation datasets, especially for subjects that are calculation-intensive. Our findings show that our Higgs model — a LLaMA finetuned with datasets generated through our novel stateful prompt design — proficiently utilizes Python for computations. Consequently, finetuning with our datasets enriched with code soliloquies enhances not just the accuracy but also the computational reliability of Higgs’ responses.

arxiv情報

著者 Shashank Sonkar,MyCo Le,Xinghe Chen,Naiming Liu,Debshila Basu Mallick,Richard G. Baraniuk
発行日 2023-09-21 15:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク