Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs

要約

教育においては、大規模言語モデル (LLM) の人間に似たテキストを生成する機能が、学習と教育の効率を高める方法に関する研究に影響を与えました。
私たちは、LLM がハードウェアの制約と改良技術に関して多肢選択質問 (MCQ) にどのように答えるかを調査することにより、教育者や学生にとってこれらのモデルが手頃な価格であるかどうかを研究しています。
私たちは、事前にトレーニングされた汎用 LLM (LLaMA-2 の 7B、13B、および 70B バリアント) を使用して、プログラミング言語 (PL) のコースからの 162 の学部レベルの MCQ に回答することで、この領域を探索します。MCQ データセットは、
この作品は私たちが一般に公開します。
具体的には、微調整や量子化(リソースの使用量を減らすため)にすぐに入手できる資料(コースの教科書(の一部))を使用するなど、さまざまな要因が応答の精度をどのように変化させるかを分析します。
主なポイントは、教科書ベースの小規模な微調整モデルが一般的な大規模なモデル (事前トレーニングに顕著なリソースを必要とする) よりも優れたパフォーマンスを示し、MCQ に答えるための LLM の使用がリソースと材料の面で手頃な価格になるということです。

要約(オリジナル)

In education, the capability of generating human-like text of Large Language Models (LLMs) inspired work on how they can increase the efficiency of learning and teaching. We study the affordability of these models for educators and students by investigating how LLMs answer multiple-choice questions (MCQs) with respect to hardware constraints and refinement techniques. We explore this space by using generic pre-trained LLMs (the 7B, 13B, and 70B variants of LLaMA-2) to answer 162 undergraduate-level MCQs from a course on Programming Languages (PL) — the MCQ dataset is a contribution of this work, which we make publicly available. Specifically, we dissect how different factors, such as using readily-available material — (parts of) the course’s textbook — for fine-tuning and quantisation (to decrease resource usage) can change the accuracy of the responses. The main takeaway is that smaller textbook-based fine-tuned models outperform generic larger ones (whose pre-training requires conspicuous resources), making the usage of LLMs for answering MCQs resource- and material-wise affordable.

arxiv情報

著者 Bianca Raimondi,Saverio Giallorenzo,Maurizio Gabbrielli
発行日 2025-01-10 11:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク