An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP)

要約

データセット DRAW-1K からの数学単語問題 (MWP) に対する ChatGPT として知られる市販の大規模言語モデル (LLM) のパフォーマンスを研究します。
私たちの知る限り、これは ChatGPT の最初の独立した評価です。
ChatGPT のパフォーマンスは、作業を表示する要件に基づいて劇的に変化することがわかりました。作業を提供する場合は 20% の確率で失敗し、提供しない場合は 84% 失敗します。
未知数の数と操作の数に関連する MWP に関するさらにいくつかの要因は、事前に比較した場合に失敗の確率が高くなることにつながります。具体的には、(すべての実験で)失敗の確率が加算と減算の数に比例して増加することに注意してください。
オペレーション。
また、MWP に対する ChatGPT の応答のデータセットをリリースして、LLM パフォーマンスの特性評価に関するさらなる作業をサポートし、ChatGPT が MWP に正しく応答できるかどうかを予測するベースライン機械学習モデルを提示しました。
この分野のさらなる研究をサポートするために、ChatGPT の回答で構成されるデータセットをリリースしました。

要約(オリジナル)

We study the performance of a commercially available large language model (LLM) known as ChatGPT on math word problems (MWPs) from the dataset DRAW-1K. To our knowledge, this is the first independent evaluation of ChatGPT. We found that ChatGPT’s performance changes dramatically based on the requirement to show its work, failing 20% of the time when it provides work compared with 84% when it does not. Further several factors about MWPs relating to the number of unknowns and number of operations that lead to a higher probability of failure when compared with the prior, specifically noting (across all experiments) that the probability of failure increases linearly with the number of addition and subtraction operations. We also have released the dataset of ChatGPT’s responses to the MWPs to support further work on the characterization of LLM performance and present baseline machine learning models to predict if ChatGPT can correctly answer an MWP. We have released a dataset comprised of ChatGPT’s responses to support further research in this area.

arxiv情報

著者 Paulo Shakarian,Abhinav Koyyalamudi,Noel Ngu,Lakshmivihari Mareedu
発行日 2023-02-28 02:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク