Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

要約

学位取得に必要な MIT の数学、電気工学およびコンピューター サイエンス (EECS) のすべてのコースにわたる問題セット、中間試験、期末試験からの 4,550 の質問と解答の包括的なデータセットを厳選しています。
私たちは、MIT の数学および EECS 専攻の卒業要件を満たす大規模な言語モデルの能力を評価します。
私たちの結果は、GPT-3.5 が MIT カリキュラム全体の 3 分の 1 を解決することに成功しているのに対し、GPT-4 は迅速なエンジニアリングにより、画像に基づく問題を除いたテスト セットで完璧な解決率を達成していることを示しています。
このデータセットに基づいてオープンソースの大規模言語モデルを微調整します。
GPT-4 を採用してモデルの回答を自動的に採点し、コース、質問、回答の種類ごとにパフォーマンスの詳細な内訳を提供します。
低次元空間に質問を埋め込むことで、質問、トピック、クラス間の関係を調査し、他の質問やクラスを解決するためにどの質問やクラスが必要かを、少数ショット学習を通じて発見します。
私たちの分析は、コースの前提条件とカリキュラム設計に関する貴重な洞察を提供し、数学と EECS 教育の学習と改善に対する言語モデルの可能性を強調しています。

要約(オリジナル)

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models’ potential for learning and improving Mathematics and EECS education.

arxiv情報

著者 Sarah J. Zhang,Samuel Florin,Ariel N. Lee,Eamon Niknafs,Andrei Marginean,Annie Wang,Keith Tyser,Zad Chin,Yann Hicke,Nikhil Singh,Madeleine Udell,Yoon Kim,Tonio Buonassisi,Armando Solar-Lezama,Iddo Drori
発行日 2023-06-15 09:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク