要約
この論文では、組み合わせ論における数学的問題を解決する際の、最近の大規模言語モデル (LLM) の能力について考察します。
モデル LLaMA-2、LLaMA-3.1、GPT-4、および Mixtral を相互に比較し、また数学オリンピックの出場経験を持つ人間の生徒や学部生と比較します。
これらの比較を容易にするために、Combi-Puzzles データセットを導入します。このデータセットには、25 の組み合わせ推論問題に基づく 125 の問題のバリアントが含まれています。
各問題は、敵対的な追加、数値パラメーターの変更、および言語の難読化を通じて問題ステートメントを体系的に操作することによって作成された 5 つの異なる形式のいずれかで提示されます。
私たちのバリエーションは数学的核心を維持し、LLM の問題解決能力の一般化可能性を測定するように設計されていると同時に、問題がトレーニング インスタンスとして見られていない形式で LLM に送信されるという信頼性も高めます。
GPT-4 に基づくモデルは、正しい応答を生成する点で他のすべてのモデルよりも優れており、問題の数学的バリエーションにおいて人間よりも大幅に優れたパフォーマンスを発揮することがわかりました。
また、問題ステートメントの変更は LLM のパフォーマンスに大きな影響を与える一方、人間のパフォーマンスには影響がないこともわかりました。
要約(オリジナル)
In this paper we look at the ability of recent large language models (LLMs) at solving mathematical problems in combinatorics. We compare models LLaMA-2, LLaMA-3.1, GPT-4, and Mixtral against each other and against human pupils and undergraduates with prior experience in mathematical olympiads. To facilitate these comparisons we introduce the Combi-Puzzles dataset, which contains 125 problem variants based on 25 combinatorial reasoning problems. Each problem is presented in one of five distinct forms, created by systematically manipulating the problem statements through adversarial additions, numeric parameter changes, and linguistic obfuscation. Our variations preserve the mathematical core and are designed to measure the generalisability of LLM problem-solving abilities, while also increasing confidence that problems are submitted to LLMs in forms that have not been seen as training instances. We found that a model based on GPT-4 outperformed all other models in producing correct responses, and performed significantly better in the mathematical variation of the problems than humans. We also found that modifications to problem statements significantly impact the LLM’s performance, while human performance remains unaffected.
arxiv情報
著者 | Andrii Nikolaiev,Yiannos Stathopoulos,Simone Teufel |
発行日 | 2024-12-16 15:54:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google