Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams

要約

この研究では、メキシコ国立工科大学が提案した学部入学試験における大規模な言語モデル、特に GPT-3.5 と BARD (Gemini Pro モデルでサポート) のパフォーマンスを評価します。
試験は、工学/数学および物理科学、生物学および医学、および社会および管理科学をカバーします。
どちらのモデルも習熟度を実証し、それぞれの学術プログラムの最低合格スコアを、一部の学術プログラムでは最大 75% 上回りました。
GPT-3.5 は数学と物理学で BARD を上回りましたが、歴史と事実情報に関連する質問では BARD の方が優れた成績を収めました。
全体として、GPT-3.5 はそれぞれ 60.94% と 60.42% のスコアで BARD をわずかに上回りました。

要約(オリジナル)

This study evaluates the performance of large language models, specifically GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions exams proposed by the National Polytechnic Institute in Mexico. The exams cover Engineering/Mathematical and Physical Sciences, Biological and Medical Sciences, and Social and Administrative Sciences. Both models demonstrated proficiency, exceeding the minimum acceptance scores for respective academic programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in Mathematics and Physics, while BARD performed better in History and questions related to factual information. Overall, GPT-3.5 marginally surpassed BARD with scores of 60.94% and 60.42%, respectively.

arxiv情報

著者 Sabino Miranda,Obdulia Pichardo-Lagunas,Bella Martínez-Seis,Pierre Baldi
発行日 2023-12-28 06:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク