Stuck in the Quicksand of Numeracy, Far from AGI Summit: Evaluating LLMs’ Mathematical Competency through Ontology-guided Perturbations

要約

大規模言語モデル (LLM) の最近の進歩により、既存の論理推論ベンチマークで驚くべき結果が示され、一部のモデルは人間のパフォーマンスを超えています。
しかし、数学的推論タスクにおける彼らの能力と堅牢性の真の深さは未解決の疑問のままです。
これに応えて、私たちは、(i) 数学の問題の摂動のオントロジー、(ii) 摂動の半自動方法、および (iii) 数学的推論タスクにおける LLM 能力の限界を調査するための摂動された数学の質問のデータセットを開発します。
これらの制御された摂動は、数学の問題の構造的および表現的側面の複数の細かい次元にまたがります。
GPT-4 を使用して、GSM8K からランダムに選択された 5 つのシード質問を摂動させることで MORE データセットを生成しました。
このプロセスは当社のオントロジーに基づいて行われ、徹底的な自動および手動のフィルタリング プロセスが含まれ、216 個の数学問題のセットが生成されました。
MORE では、クローズドソースとオープンソースの LLM の両方の包括的な評価を実施しました。
結果は、混乱した質問に対してすべてのモデルでパフォーマンスが大幅に低下することを示しています。
これは、現在の LLM には堅牢な数学的スキルと深い推論能力が欠けていることを強く示唆しています。
この調査では、現在のモデルの機能における複数のギャップを特定するだけでなく、将来の開発の可能性のある複数の方向性も浮き彫りにしています。
私たちのデータセットは https://huggingface.co/datasets/declare-lab/GSM8k_MORE で公開されます。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have showcased striking results on existing logical reasoning benchmarks, with some models even surpassing human performance. However, the true depth of their competencies and robustness, in mathematical reasoning tasks, remains an open question. In response, we develop (i) an ontology of perturbations of maths questions, (ii) a semi-automatic method of perturbation, and (iii) a dataset of perturbed maths questions to probe the limits of LLM capabilities in mathematical reasoning tasks. These controlled perturbations span across multiple fine dimensions of the structural and representational aspects of maths questions. Using GPT-4, we generated the MORE dataset by perturbing randomly selected five seed questions from GSM8K. This process was guided by our ontology and involved a thorough automatic and manual filtering process, yielding a set of 216 maths problems. We conducted comprehensive evaluation of both closed-source and open-source LLMs on MORE. The results show a significant performance drop across all the models against the perturbed questions. This strongly suggests that current LLMs lack robust mathematical skills and deep reasoning abilities. This research not only identifies multiple gaps in the capabilities of current models, but also highlights multiple potential directions for future development. Our dataset will be made publicly available at https://huggingface.co/datasets/declare-lab/GSM8k_MORE.

arxiv情報

著者 Pengfei Hong,Deepanway Ghosal,Navonil Majumder,Somak Aditya,Rada Mihalcea,Soujanya Poria
発行日 2024-01-17 18:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク