要約
私たちは、ChatGPT (2023 年 1 月 9 日と 2023 年 1 月 30 日にリリース) と GPT-4 の 2 つの反復の数学的機能を、新しい方法論を使用して、公開されているデータセットと手作りのデータセットでテストすることによって調査します。
形式的証明の大規模なデータベースが利用可能な形式数学とは対照的に (リーン数学ライブラリなど)、言語モデルのベンチマークに使用される自然言語数学の現在のデータセットは、初等数学のみをカバーしているか、または非常に小さいです。
私たちは、GHOSTS と miniGHOSTS という 2 つの新しいデータセットを公開することでこの問題に対処します。
これらは、数学の現役研究者によってキュレーションされた初の自然言語データセットであり、(1) 大学院レベルの数学をカバーすることを目的とし、(2) 言語モデルの数学的機能の全体的な概要を提供し、(3) 数学的推論の複数の側面を区別します。
これらのデータセットは、数学者の日常の専門的活動で発生するユースケースをエミュレートすることにより、ChatGPT と GPT-4 がプロの数学者の有用なアシスタントになり得るかどうかもテストします。
さまざまな詳細なパフォーマンス指標に基づいてモデルをベンチマークします。
高度な数学にとって、これはこれまでで最も詳細な評価作業です。
ChatGPT は、数学的検索エンジンおよび知識ベース インターフェイスとして機能し、事実をクエリするための数学的アシスタントとして最も効果的に使用できることがわかりました。
GPT-4 は学部レベルの数学にも使用できますが、大学院レベルの難易度では失敗します。
GPT-4 と ChatGPT の試験解答能力 (選択バイアスの可能性) に関するメディアの多くの肯定的な報道とは対照的に、彼らの全体的な数学的パフォーマンスは大学院生のレベルをはるかに下回っています。
したがって、ChatGPT を使用して大学院レベルの数学試験に合格することが目標である場合は、平均的な同僚の真似をしたほうが良いでしょう。
要約(オリジナル)
We investigate the mathematical capabilities of two iterations of ChatGPT (released 9-January-2023 and 30-January-2023) and of GPT-4 by testing them on publicly available datasets, as well as hand-crafted ones, using a novel methodology. In contrast to formal mathematics, where large databases of formal proofs are available (e.g., the Lean Mathematical Library), current datasets of natural-language mathematics, used to benchmark language models, either cover only elementary mathematics or are very small. We address this by publicly releasing two new datasets: GHOSTS and miniGHOSTS. These are the first natural-language datasets curated by working researchers in mathematics that (1) aim to cover graduate-level mathematics, (2) provide a holistic overview of the mathematical capabilities of language models, and (3) distinguish multiple dimensions of mathematical reasoning. These datasets also test whether ChatGPT and GPT-4 can be helpful assistants to professional mathematicians by emulating use cases that arise in the daily professional activities of mathematicians. We benchmark the models on a range of fine-grained performance metrics. For advanced mathematics, this is the most detailed evaluation effort to date. We find that ChatGPT can be used most successfully as a mathematical assistant for querying facts, acting as a mathematical search engine and knowledge base interface. GPT-4 can additionally be used for undergraduate-level mathematics but fails on graduate-level difficulty. Contrary to many positive reports in the media about GPT-4 and ChatGPT’s exam-solving abilities (a potential case of selection bias), their overall mathematical performance is well below the level of a graduate student. Hence, if your goal is to use ChatGPT to pass a graduate-level math exam, you would be better off copying from your average peer!
arxiv情報
著者 | Simon Frieder,Luca Pinchetti,Alexis Chevalier,Ryan-Rhys Griffiths,Tommaso Salvatori,Thomas Lukasiewicz,Philipp Christian Petersen,Julius Berner |
発行日 | 2023-07-20 17:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google