要約
この論文では、コンピュータ エンジニアリングの入門試験で一般的に提示される確率問題を解決する際の大規模言語モデルである ChatGPT (バージョン 2023 年 2 月) の有効性を評価します。
私たちの研究は、マドリードのレイ ファン カルロス大学 (URJC) の学生に実施された 23 の確率演習で構成されました。
ChatGPT によって生成された回答は、5 人の統計教授からなるグループによって評価され、学生に使用されたのと同じ基準に基づいて定性的に評価され、成績が割り当てられました。
私たちの結果は、ChatGPT が表現力、構成力、論理的推論の点で平均的な生徒を上回っていることを示しています。
モデルのパフォーマンスは、スペイン語版と英語版の両方の演習で一貫したままでした。
しかし、ChatGPT は基本的な数値演算を実行する際に困難に直面しました。
私たちの実験では、ChatGPT に R スクリプトの形式でソリューションを提供するようリクエストすることが、これらの制限を克服するための効果的なアプローチであることが証明されたことを示しています。
要約すると、私たちの結果は、ChatGPT が、コンピュータ エンジニアリングの入門試験でよく出題される確率の問題を解く点で、平均的な学生を上回っていることを示しています。
それにもかかわらず、このモデルでは、特定の確率概念に関する推論には限界があります。
あらゆるプログラミング言語で高品質の説明を提供し、解決策を示すこのモデルの能力は、確率演習を解く際のパフォーマンスと相まって、大規模な言語モデルが学習アシスタントとして機能する可能性があることを示唆しています。
要約(オリジナル)
In this paper, we assess the efficacy of ChatGPT (version Feb 2023), a large-scale language model, in solving probability problems typically presented in introductory computer engineering exams. Our study comprised a set of 23 probability exercises administered to students at Rey Juan Carlos University (URJC) in Madrid. The responses produced by ChatGPT were evaluated by a group of five statistics professors, who assessed them qualitatively and assigned grades based on the same criteria used for students. Our results indicate that ChatGPT surpasses the average student in terms of phrasing, organization, and logical reasoning. The model’s performance remained consistent for both the Spanish and English versions of the exercises. However, ChatGPT encountered difficulties in executing basic numerical operations. Our experiments demonstrate that requesting ChatGPT to provide the solution in the form of an R script proved to be an effective approach for overcoming these limitations. In summary, our results indicate that ChatGPT surpasses the average student in solving probability problems commonly presented in introductory computer engineering exams. Nonetheless, the model exhibits limitations in reasoning around certain probability concepts. The model’s ability to deliver high-quality explanations and illustrate solutions in any programming language, coupled with its performance in solving probability exercises, suggests that large language models have the potential to serve as learning assistants.
arxiv情報
| 著者 | Angel Udias,Antonio Alonso-Ayuso,Ignacio Sanchez,Sonia Hernandez,Maria Eugenia Castellanos,Raquel Montes Diez,Emilio Lopez Cano |
| 発行日 | 2023-10-09 12:54:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google