要約
大規模言語モデル(LLM)は、人間のようなテキストを理解し、生成する優れた能力により、様々な領域で不可欠なツールとなっている。多肢選択問題(MCQ)に正確に答える能力は、教育、特に自動学習システムや評価プラットフォームにおいて重要な価値を持つ。しかし、幻覚や不明確なプロンプトのために、MCQタスクを効果的に処理するためにLLMを適応させることは依然として困難である。この研究では、コンパクトでありながら効率的なLLMであるMicrosoftのPHI-3cite{Abdin2024}のMCQ回答への可能性を探る。我々の貢献には、TruthfulQAデータセット上でのモデルの微調整、モデルの性能を向上させるための最適化されたプロンプトの設計、複雑性と精度やF1スコアのような伝統的な指標を用いた評価が含まれる。その結果、ファインチューニング後のPHI-3.5のMCQハンドリングは著しく改善され、パープレキシティは4.68から2.27に減少し、精度は62%から90.8%に上昇した。この研究により、適応学習システムや教育評価における効率的なモデルの重要性が強調され、特にテスト準備、生徒のフィードバック、個別学習などの分野において、教室への幅広い統合への道が開かれた。
要約(オリジナル)
Large Language Models (LLMs) have become essential tools across various domains due to their impressive capabilities in understanding and generating human-like text. The ability to accurately answer multiple-choice questions (MCQs) holds significant value in education, particularly in automated tutoring systems and assessment platforms. However, adapting LLMs to handle MCQ tasks effectively remains challenging due to the hallucinations and unclear prompts. This work explores the potential of Microsoft’s PHI-3\cite{Abdin2024}, a compact yet efficient LLM, for MCQ answering. Our contributions include fine-tuning the model on the TruthfulQA dataset, designing optimized prompts to enhance model performance, and evaluating using perplexity and traditional metrics like accuracy and F1 score. Results show a remarkable improvement in PHI-3.5’s MCQ handling post-fine-tuning, with perplexity decreasing from 4.68 to 2.27, and accuracy rising from 62\% to 90.8\%. This research underlines the importance of efficient models in adaptive learning systems and educational assessments, paving the way for broader integration into the classroom, particularly in fields like test preparation, student feedback, and personalized learning.
arxiv情報
著者 | Mohamed Hisham Abdellatif |
発行日 | 2025-01-03 00:56:46+00:00 |
arxivサイト | arxiv_id(pdf) |