Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants

要約

AI アシスタントは、高等教育機関に在籍する学生の間で利用が増えています。
これらのツールは教育と教育を改善する機会を提供しますが、評価と学習成果に対して重大な課題ももたらします。
私たちは、脆弱性、学生による生成型 AI の使用によって大学の評価と学習成果が影響を受ける可能性というレンズを通して、これらの課題を概念化します。
私たちは、AI アシスタントが大学レベルの標準的な STEM コースの評価質問をどの程度完了できるかを測定することで、この脆弱性の潜在的な規模を調査しています。
具体的には、EPFL の 50 コースからのテキスト評価質問の新しいデータセットを編集し、2 つの AI アシスタント、GPT-3.5 と GPT-4 がこれらの質問に適切に回答できるかどうかを評価します。
回答を生成するために 8 つのプロンプト戦略を使用したところ、GPT-4 は平均 65.8% の質問に正しく答え、質問の 85.1% については少なくとも 1 つのプロンプト戦略で正しい回答を生成できることがわかりました。
データセット内のコースを学位プログラムごとにグループ化する場合、これらのシステムはすでにさまざまな学位プログラムの多数のコアコースの非プロジェクト評価に合格しており、高等教育の認定に対するリスクが生じており、これらのモデルが改善されるにつれてリスクが増大します。
私たちの結果は、生成 AI の進歩を考慮して、高等教育におけるプログラムレベルの評価設計を見直す必要があることを示唆しています。

要約(オリジナル)

AI assistants are being increasingly used by students enrolled in higher education institutions. While these tools provide opportunities for improved teaching and education, they also pose significant challenges for assessment and learning outcomes. We conceptualize these challenges through the lens of vulnerability, the potential for university assessments and learning outcomes to be impacted by student use of generative AI. We investigate the potential scale of this vulnerability by measuring the degree to which AI assistants can complete assessment questions in standard university-level STEM courses. Specifically, we compile a novel dataset of textual assessment questions from 50 courses at EPFL and evaluate whether two AI assistants, GPT-3.5 and GPT-4 can adequately answer these questions. We use eight prompting strategies to produce responses and find that GPT-4 answers an average of 65.8% of questions correctly, and can even produce the correct answer across at least one prompting strategy for 85.1% of questions. When grouping courses in our dataset by degree program, these systems already pass non-project assessments of large numbers of core courses in various degree programs, posing risks to higher education accreditation that will be amplified as these models improve. Our results call for revising program-level assessment design in higher education in light of advances in generative AI.

arxiv情報

著者 Beatriz Borges,Negar Foroutan,Deniz Bayazit,Anna Sotnikova,Syrielle Montariol,Tanya Nazaretzky,Mohammadreza Banaei,Alireza Sakhaeirad,Philippe Servant,Seyed Parsa Neshaei,Jibril Frej,Angelika Romanou,Gail Weiss,Sepideh Mamooler,Zeming Chen,Simin Fan,Silin Gao,Mete Ismayilzada,Debjit Paul,Alexandre Schöpfer,Andrej Janchevski,Anja Tiede,Clarence Linden,Emanuele Troiani,Francesco Salvi,Freya Behrens,Giacomo Orsi,Giovanni Piccioli,Hadrien Sevel,Louis Coulon,Manuela Pineros-Rodriguez,Marin Bonnassies,Pierre Hellich,Puck van Gerwen,Sankalp Gambhir,Solal Pirelli,Thomas Blanchard,Timothée Callens,Toni Abi Aoun,Yannick Calvino Alonso,Yuri Cho,Alberto Chiappa,Antonio Sclocchi,Étienne Bruno,Florian Hofhammer,Gabriel Pescia,Geovani Rizk,Leello Dadi,Lucas Stoffl,Manoel Horta Ribeiro,Matthieu Bovel,Yueyang Pan,Aleksandra Radenovic,Alexandre Alahi,Alexander Mathis,Anne-Florence Bitbol,Boi Faltings,Cécile Hébert,Devis Tuia,François Maréchal,George Candea,Giuseppe Carleo,Jean-Cédric Chappelier,Nicolas Flammarion,Jean-Marie Fürbringer,Jean-Philippe Pellet,Karl Aberer,Lenka Zdeborová,Marcel Salathé,Martin Jaggi,Martin Rajman,Mathias Payer,Matthieu Wyart,Michael Gastpar,Michele Ceriotti,Ola Svensson,Olivier Lévêque,Paolo Ienne,Rachid Guerraoui,Robert West,Sanidhya Kashyap,Valerio Piazza,Viesturs Simanis,Viktor Kuncak,Volkan Cevher,Philippe Schwaller,Sacha Friedli,Patrick Jermann,Tanja Käser,Antoine Bosselut
発行日 2024-11-27 10:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク