Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams


この研究では、メキシコ国立工科大学が提案した学部入学試験における大規模な言語モデル、特に GPT-3.5 と BARD (Gemini Pro モデルでサポート) のパフォーマンスを評価します。
どちらのモデルも習熟度を実証し、それぞれの学術プログラムの最低合格スコアを、一部の学術プログラムでは最大 75% 上回りました。
GPT-3.5 は数学と物理学で BARD を上回りましたが、歴史と事実情報に関連する質問では BARD の方が優れた成績を収めました。
全体として、GPT-3.5 はそれぞれ 60.94% と 60.42% のスコアで BARD をわずかに上回りました。


This study evaluates the performance of large language models, specifically GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions exams proposed by the National Polytechnic Institute in Mexico. The exams cover Engineering/Mathematical and Physical Sciences, Biological and Medical Sciences, and Social and Administrative Sciences. Both models demonstrated proficiency, exceeding the minimum acceptance scores for respective academic programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in Mathematics and Physics, while BARD performed better in History and questions related to factual information. Overall, GPT-3.5 marginally surpassed BARD with scores of 60.94% and 60.42%, respectively.


著者 Sabino Miranda,Obdulia Pichardo-Lagunas,Bella Martínez-Seis,Pierre Baldi
発行日 2023-12-28 06:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク