Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems


このレポートは、2023年6月から8月に実施された高校および大学レベルの科学と数学の105のオリジナル問題に対するWolfram Alphaおよびコードインタープリタプラグインを使用した大規模言語モデルGPT-4のテストについて説明します。
テストでは、プラグインが GPT のこれらの問題を解決する能力を大幅に強化することが示唆されています。
つまり、GPT は、プラグインから有益な回答を引き出す方法で問題を定式化するのに苦労することがよくあります。
これらのインターフェイスの障害を修正することは、GPT を大学レベルの計算問題に対して信頼できるツールにする上での中心的な課題のように思えます。


This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT’s ability to solve these problems. Having said that, there are still often ‘interface’ failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.


著者 Ernest Davis,Scott Aaronson
発行日 2023-08-10 17:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.HO, physics.pop-ph パーマリンク