Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination

要約

この研究では、さまざまな科目と難易度のベトナム国家高等学校卒業試験 (VNHSGE) の多肢選択問題に回答する ChatGPT の数学能力の完全な分析を提供します。
このデータセットには、知識 (K)、理解 (C)、応用 (A)、高度応用 (H) の 4 つのレベルに分かれた 250 問が含まれており、さまざまな数学的概念をカバーする 10 つのテーマが含まれていました。
この結果は、ChatGPT のパフォーマンスが難易度や主題によって異なることを示しています。
レベル (K) の質問で最高のパフォーマンスを示し、正解率は $83\%$ でした。
しかし、難易度が上がるにつれてスコアは低くなり、正解率は $10\%$ でした。
この研究では、ChatGPT が、指数関数や対数関数、等比数列、等差数列などの主題に関する質問に応答することに大幅に成功していることも示されました。
この研究では、ChatGPT が導関数と応用、空間幾何学、Oxyz 空間微積分などのトピックに関する質問に正しく答えるのが難しいことがわかりました。
さらに、この研究では、ChatGPT の結果と、VNHSGE および他の数学コンテストのベトナム人学生とを比較しました。
SAT 数学コンテストでは、ChatGPT が成功率 $70\%$ で優勢で、VNHSGE 数学 ($58.8\%)$ が続きました。
ただし、AP Statistics、GRE Quantitative、AMC 10、AMC 12、AP Calculus BC などの他の試験では合格率が低くなりました。
これらの結果は、ChatGPT が数学の効果的な教育ツールとなる可能性を秘めていることを示唆していますが、グラフィック データの処理を強化し、より困難になっている質問によって提示される課題に対処するには、さらなる取り組みが必要です。

要約(オリジナル)

This study offers a complete analysis of ChatGPT’s mathematics abilities in responding to multiple-choice questions for the Vietnamese National High School Graduation Examination (VNHSGE) on a range of subjects and difficulty levels. The dataset included 250 questions divided into four levels: knowledge (K), comprehension (C), application (A), and high application (H), and it included ten themes that covered diverse mathematical concepts. The outcomes demonstrate that ChatGPT’s performance varies depending on the difficulty level and subject. It performed best on questions at Level (K), with an accuracy rate of $83\%$; but, as the difficulty level rose, it scored poorly, with an accuracy rate of $10\%$. The study has also shown that ChatGPT significantly succeeds in providing responses to questions on subjects including exponential and logarithmic functions, geometric progression, and arithmetic progression. The study found that ChatGPT had difficulty correctly answering questions on topics including derivatives and applications, spatial geometry, and Oxyz spatial calculus. Additionally, this study contrasted ChatGPT outcomes with Vietnamese students in VNHSGE and in other math competitions. ChatGPT dominated in the SAT Math competition with a success rate of $70\%$, followed by VNHSGE mathematics ($58.8\%)$. However, its success rates were lower on other exams, such as AP Statistics, the GRE Quantitative, AMC 10, AMC 12, and AP Calculus BC. These results suggest that ChatGPT has the potential to be an effective teaching tool for mathematics, but more work is needed to enhance its handling of graphical data and address the challenges presented by questions that are getting more challenging.

arxiv情報

著者 Xuan-Quy Dao,Ngoc-Bich Le
発行日 2023-07-12 01:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク