TheoremQA: A Theorem-driven Question Answering dataset

要約

GPT-4 や PaLM-2 などの最近の LLM は、90% 以上の精度を達成することで、GSM8K などの基本的な数学問題の解決において大きな進歩を遂げました。
ただし、領域固有の知識 (つまり、定理) を必要とする、より困難な数学問題を解決する能力はまだ調査されていません。
この論文では、難解な科学問題を解決するために定理を適用する AI モデルの能力を評価するために設計された初の定理駆動型質問応答データセットである TheoremQA を紹介します。
TheoremQA は、数学、物理学、EE&CS、金融の 350 の定理 (例: テイラーの定理、ラグランジュの定理、ハフマン符号化、量子定理、弾性定理など) をカバーする 800 の質の高い質問を含む、分野の専門家によって厳選されています。
私たちは、思考連鎖や思考プログラムなどのさまざまなプロンプト戦略を使用して、16 の大規模な言語モデルとコード モデルを広範囲に評価します。
これらの問題を解決する GPT-4 の機能は比類のないものであり、思考プログラム プロンプトで 51% の精度を達成していることがわかりました。
既存のオープンソース モデルはすべて 15% 未満で、ランダムな推測のベースラインをかろうじて超えています。
TheoremQA の多様性と広範なカバー範囲を考慮すると、難しい科学問題を解決する LLM の能力を評価するためのより良いベンチマークとして使用できると私たちは考えています。
データとコードは https://github.com/wenhuchen/TheoremQA で公開されています。

要約(オリジナル)

The recent LLMs like GPT-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be investigated. In this paper, we introduce TheoremQA, the first theorem-driven question-answering dataset designed to evaluate AI models’ capabilities to apply theorems to solve challenging science problems. TheoremQA is curated by domain experts containing 800 high-quality questions covering 350 theorems (e.g. Taylor’s theorem, Lagrange’s theorem, Huffman coding, Quantum Theorem, Elasticity Theorem, etc) from Math, Physics, EE&CS, and Finance. We evaluate a wide spectrum of 16 large language and code models with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. We found that GPT-4’s capabilities to solve these problems are unparalleled, achieving an accuracy of 51% with Program-of-Thoughts Prompting. All the existing open-sourced models are below 15%, barely surpassing the random-guess baseline. Given the diversity and broad coverage of TheoremQA, we believe it can be used as a better benchmark to evaluate LLMs’ capabilities to solve challenging science problems. The data and code are released in https://github.com/wenhuchen/TheoremQA.

arxiv情報

著者 Wenhu Chen,Ming Yin,Max Ku,Pan Lu,Yixin Wan,Xueguang Ma,Jianyu Xu,Xinyi Wang,Tony Xia
発行日 2023-12-06 03:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク