要約
学位取得に必要な MIT の数学、電気工学およびコンピューター サイエンス (EECS) のすべてのコースにわたる問題セット、中間試験、期末試験からの 4,550 の質問と解答の包括的なデータセットを厳選しています。
私たちは、MIT の数学および EECS 専攻の卒業要件を満たす大規模な言語モデルの能力を評価します。
私たちの結果は、GPT-3.5 が MIT カリキュラム全体の 3 分の 1 を解決することに成功しているのに対し、GPT-4 は迅速なエンジニアリングにより、画像に基づく問題を除いたテスト セットで完璧な解決率を達成していることを示しています。
このデータセットに基づいてオープンソースの大規模言語モデルを微調整します。
GPT-4 を採用してモデルの回答を自動的に採点し、コース、質問、回答の種類ごとにパフォーマンスの詳細な内訳を提供します。
低次元空間に質問を埋め込むことで、質問、トピック、クラス間の関係を調査し、他の質問やクラスを解決するためにどの質問やクラスが必要かを、少数ショット学習を通じて発見します。
私たちの分析は、コースの前提条件とカリキュラム設計に関する貴重な洞察を提供し、数学と EECS 教育の学習と改善に対する言語モデルの可能性を強調しています。
要約(オリジナル)
We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models’ potential for learning and improving Mathematics and EECS education.
arxiv情報
著者 | Sarah J. Zhang,Samuel Florin,Ariel N. Lee,Eamon Niknafs,Andrei Marginean,Annie Wang,Keith Tyser,Zad Chin,Yann Hicke,Nikhil Singh,Madeleine Udell,Yoon Kim,Tonio Buonassisi,Armando Solar-Lezama,Iddo Drori |
発行日 | 2023-06-15 09:48:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google