ChatGPT Performance on Standardized Testing Exam — A Proposed Strategy for Learners

要約

この研究では、ChatGPT の問題解決能力と、GRE 定量試験に焦点を当てた、標準化された試験準備におけるその将来の応用について調査します。
これまでの研究では、さまざまな分野にわたる学習アプローチに革命をもたらす学術目的での ChatGPT の利用に大きな可能性があることが示されています。
GRE 定量的ドメインのさまざまな質問タイプに対して ChatGPT がどのように動作するか、また質問プロンプトの変更が精度にどのような影響を与えるかを調査します。
より具体的には、この研究では次の 2 つの研究課題が取り上げられました。 1. ChatGPT は、さまざまなコンテンツ領域にわたる GRE ベースの定量的な質問に答える際にどのように機能しますか?
2. 質問プロンプトを変更すると、ChatGPT の精度はどのように変化しますか?
ランダムに選択された 100 個の GRE 定量的質問で構成されるデータセットは、GRE テスト準備のための ETS 公式ガイドから収集されました。
最初の研究課題に答えるために定量的評価を使用し、迅速な変更と ChatGPT の精度の間の統計的関連性を調べるために t 検定を使用しました。
結果は、元の質問に指示プライミングと状況に応じたプロンプトを適用した後、ChatGPT の精度が統計的に向上したことを示しています。
ChatGPT は、元のデータの 69% と比較して、変更されたプロンプトでは 84% の精度を示しました。
この研究では、ChatGPT が特定の質問で苦労した領域と、GRE などの標準化テストの準備に修正がどのように役立つかについて議論し、迅速な修正に関する今後の方向性を示しています。

要約(オリジナル)

This study explores the problem solving capabilities of ChatGPT and its prospective applications in standardized test preparation, focusing on the GRE quantitative exam. Prior research has shown great potential for the utilization of ChatGPT for academic purposes in revolutionizing the approach to studying across various disciplines. We investigate how ChatGPT performs across various question types in the GRE quantitative domain, and how modifying question prompts impacts its accuracy. More specifically this study addressed two research questions: 1. How does ChatGPT perform in answering GRE-based quantitative questions across various content areas? 2. How does the accuracy of ChatGPT vary with modifying the question prompts? The dataset consisting of 100 randomly selected GRE quantitative questions was collected from the ETS official guide to GRE test preparation. We used quantitative evaluation to answer our first research question, and t-test to examine the statistical association between prompt modification and ChatGPT’s accuracy. Results show a statistical improvement in the ChatGPT’s accuracy after applying instruction priming and contextual prompts to the original questions. ChatGPT showed 84% accuracy with the modified prompts compared to 69% with the original data. The study discusses the areas where ChatGPT struggled with certain questions and how modifications can be helpful for preparing for standardized tests like GRE and provides future directions for prompt modifications.

arxiv情報

著者 Umer Farooq,Saira Anwar
発行日 2023-09-25 20:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク