Nondeterministic Polynomial-time Problem Challenge: An Ever-Scaling Reasoning Benchmark for LLMs

要約

推論は、大規模な言語モデル(LLMS)の基本的な能力です。
LLMSの急速な進行により、現在のベンチマークには2つの主要な問題があります。i)これらのベンチマークは短時間(1年未満)、ii)これらのベンチマークは簡単にハッキングされる場合があります。
これらの問題を処理するために、私たちは、巧妙で、解読できず、自動検証可能で一般的なベンチマークを構築するための絶え間ない賢明さを提案します。
このペーパーでは、LLMSの絶え間ない推論ベンチマークである非決定的多項式時間問題課題(NPPC)を紹介します。
具体的には、NPPCには3つの主要なモジュールがあります:i)NPGYMは、25のよく知られているNPコンプリート問題の統一インターフェイスを提供し、あらゆるレベルの複雑さで任意の数のインスタンスを生成できますii)NPSOLVER:apis and iiiを介してオンラインモデルを介してオンラインモデルとオフラインモデルの両方で問題インスタンスを評価するための統一インターフェイスを提供します。
さまざまな問題、トークンの数、AHAの瞬間、推論エラー、ソリューションエラーにわたるLLMSのパフォーマンスを分析します。
広く使用されているLLMSを超える広範な実験は次のことを示しています。i)NPPCは、高度なLLMSのパフォーマンスのパフォーマンスを10%未満に縮小することができ、NPPCが粗末であることを示しています。
考慮されたほとんどのNP完全な問題、およびiii)トークンの数、高度なLLMのahaの瞬間、たとえば、claude-3.7-sonnetおよびdeepseek-r1などが観察され、問題のインスタンスがより困難になると減少します。
NPPCは、人工的な一般情報(AGI)に向けてLLMSの不可解でハッキング不可能なテストベッドとして機能している最初のスケーリングの推論ベンチマークであると考えています。

要約(オリジナル)

Reasoning is the fundamental capability of large language models (LLMs). Due to the rapid progress of LLMs, there are two main issues of current benchmarks: i) these benchmarks can be crushed in a short time (less than 1 year), and ii) these benchmarks may be easily hacked. To handle these issues, we propose the ever-scalingness for building the benchmarks which are uncrushable, unhackable, auto-verifiable and general. This paper presents Nondeterministic Polynomial-time Problem Challenge (NPPC), an ever-scaling reasoning benchmark for LLMs. Specifically, the NPPC has three main modules: i) npgym, which provides a unified interface of 25 well-known NP-complete problems and can generate any number of instances with any levels of complexities, ii) npsolver: which provides a unified interface to evaluate the problem instances with both online and offline models via APIs and local deployments, respectively, and iii) npeval: which provides the comprehensive and ready-to-use tools to analyze the performances of LLMs over different problems, the number of tokens, the aha moments, the reasoning errors and the solution errors. Extensive experiments over widely-used LLMs demonstrate: i) NPPC can successfully decrease the performances of advanced LLMs’ performances to below 10%, demonstrating that NPPC is uncrushable, ii) DeepSeek-R1, Claude-3.7-Sonnet, and o1/o3-mini are the most powerful LLMs, where DeepSeek-R1 outperforms Claude-3.7-Sonnet and o1/o3-mini in most NP-complete problems considered, and iii) the numbers of tokens, aha moments in the advanced LLMs, e.g., Claude-3.7-Sonnet and DeepSeek-R1, are observed first to increase and then decrease when the problem instances become more and more difficult. We believe that NPPC is the first ever-scaling reasoning benchmark, serving as the uncrushable and unhackable testbed for LLMs toward artificial general intelligence (AGI).

arxiv情報

著者 Chang Yang,Ruiyu Wang,Junzhe Jiang,Qi Jiang,Qinggang Zhang,Yanchen Deng,Shuxin Li,Shuyue Hu,Bo Li,Florian T. Pokorny,Xiao Huang,Xinrun Wang
発行日 2025-04-15 14:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク