要約
この論文では、個別化された教育に対する学生の誤解を模倣するために大規模言語モデル (LLM) をトレーニングすることによる退行的な副作用についての新しい調査を紹介します。
私たちは、LLM が学生の誤解をより正確に模倣するように訓練されるにつれて、モデルの事実の完全性と推論能力に妥協が生じるという問題を強調します。
私たちの作業には、生徒と講師の対話データセットで LLM をトレーニングし、生徒の反応を予測することが含まれていました。
その結果、ARC 推論チャレンジや、モデルが生成した応答の真実性を評価する TruthfulQA など、複数のベンチマーク データセットにわたってモデルのパフォーマンスが低下していることが実証されました。
さらに、幻覚検出に使用される HaluEval Dial データセットと、記憶ベースのタスク データセットである MemoTrap も、モデルの精度の低下を報告しました。
これらの副作用に対処するために、私たちは「幻覚トークン」テクニックを導入しました。
このトークンは、トレーニング中に各生徒の応答の冒頭に追加され、生徒の誤解を模倣することと、事実に正確な応答を提供することを切り替えるようにモデルに指示します。
すべてのデータセットにわたって大幅な改善が見られたにもかかわらず、この手法では LLM のベースライン パフォーマンスを完全には復元できず、この分野でさらなる研究が必要であることが示されています。
この文書は、学生モデリングのための LLM の使用に関する進行中の議論に貢献し、個別化された教育と事実の正確さの間のバランスの必要性を強調しています。
要約(オリジナル)
This paper presents a novel exploration into the regressive side effects of training Large Language Models (LLMs) to mimic student misconceptions for personalized education. We highlight the problem that as LLMs are trained to more accurately mimic student misconceptions, there is a compromise in the factual integrity and reasoning ability of the models. Our work involved training an LLM on a student-tutor dialogue dataset to predict student responses. The results demonstrated a decrease in the model’s performance across multiple benchmark datasets, including the ARC reasoning challenge and TruthfulQA, which evaluates the truthfulness of model’s generated responses. Furthermore, the HaluEval Dial dataset, used for hallucination detection, and MemoTrap, a memory-based task dataset, also reported a decline in the model accuracy. To combat these side effects, we introduced a ‘hallucination token’ technique. This token, appended at the beginning of each student response during training, instructs the model to switch between mimicking student misconceptions and providing factually accurate responses. Despite the significant improvement across all datasets, the technique does not completely restore the LLM’s baseline performance, indicating the need for further research in this area. This paper contributes to the ongoing discussion on the use of LLMs for student modeling, emphasizing the need for a balance between personalized education and factual accuracy.
arxiv情報
著者 | Shashank Sonkar,Naiming Liu,Richard G. Baraniuk |
発行日 | 2024-04-23 15:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google