Large Language Models Are Struggle to Cope with Unreasonability in Math Problems

要約

最近の研究では、数学と推論におけるLLMSの印象的なパフォーマンスが実証されています。
ただし、内部の矛盾や欠陥のある仮定など、型破りな条件下で数学の問題に対処するLLMの能力は、ほとんど未踏のままです。
この論文では、数学の問題における不当性を認識して対応するLLMの能力を評価するために設計された新しいベンチマーク不合理数学問題(UMP)を提案します。
ベンチマークは、多様なタイプにわたる不合理な数学の質問の慎重にキュレーションされたコレクションで構成されています。
19 LLMをカバーする広範な実験に基づいて、GPT-4oなどの最先端のモデルでさえ、UMPで0.6のパフォーマンスが限られているのに対し、DeepSeek-R1などの推論モデルは考え直しや不安定であることがわかります。
さらに、不合理な入力の認識を改善し、この挑戦​​的な環境でのLLMの可能性と制限の両方に光を当てるための戦略を探求します。

要約(オリジナル)

Recent research have demonstrated LLMs’ impressive performance in math and reasoning. However, the capacity of LLMs to address math problems under unconventional conditions, such as internal inconsistencies and flawed assumptions, remains largely unexplored. In this paper, we propose a novel benchmark Unreasonable Math Problem (UMP) designed to assess LLMs’ ability to recognize and respond to unreasonability in math problem. The benchmark consists of a carefully curated collection of unreasonable math questions across diverse types. Based on extensive experiments covering 19 LLMs, we observe that even state-of-the-art models such as GPT-4o achieve only limited performance of 0.6 in UMP, while reasoning models such as DeepSeek-R1 are prone to overthinking and unstable. We further explore strategies for improving the recognition of unreasonable inputs, shedding light on both the possibility and limitations of LLMs in this challenging setting.

arxiv情報

著者 Jingyuan Ma,Damai Dai,Zihang Yuan,Rui li,Weilin Luo,Bin Wang,Qun Liu,Lei Sha,Zhifang Sui
発行日 2025-05-09 15:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク