NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes

要約

複雑な推論能力は現在の LLM の最も重要な機能の 1 つであり、複雑な意思決定タスクにおいて重要な役割を果たすためにも活用されています。
したがって、大規模言語モデル (LLM) の推論能力を調査することが重要です。LLM の推論能力を評価するために、多数のベンチマークが確立されています。
しかし、現在のベンチマークは、LLM が達成できる推論能力の全範囲を厳密に評価するには不十分です。
また、これらのベンチマークは公的にアクセス可能で静的であるため、モデルが特定のベンチマーク指標に合わせて応答を調整することができ、それによってパフォーマンスが増大する可能性があるため、過剰適合のリスクにもさらされます。
これらの制限に対処するため、私たちの調査では NPHardEval という新しいベンチマークを導入しました。
このベンチマークは、NP-Hard 複雑さクラスにまで及ぶ、900 のアルゴリズム質問の広範な範囲にわたって LLM の推論能力を評価するように設計されています。
これらの質問は、NP ハード複雑度クラス以下の広範囲の複雑度クラスを表すように細心の注意を払って選択されており、LLM の推論能力の厳密な尺度を提供します。
この研究を通じて、私たちは LLM における推論の現状に光を当て、複雑なクラス全体での LLM のパフォーマンスの比較を通じて客観的かつ厳密な視点を提供しました。
さらに、このベンチマークは動的更新メカニズムを使用して設計されており、データポイントは毎月更新されます。
このような定期的な更新は、LLM がベンチマークにオーバーフィットするリスクを軽減し、推論能力のより正確で信頼性の高い評価を促進する上で重要な役割を果たします。
NPHardEval のベンチマーク データセットとコードは、https://github.com/casmlab/NPHardEval で入手できます。

要約(オリジナル)

Complex reasoning ability is one of the most important features of current LLMs, which has also been leveraged to play an integral role in complex decision-making tasks. Therefore, the investigation into the reasoning capabilities of Large Language Models (LLMs) is critical: numerous benchmarks have been established to assess the reasoning abilities of LLMs. However, current benchmarks are inadequate in offering a rigorous evaluation of the full extent of reasoning abilities that LLMs are capable of achieving. They are also prone to the risk of overfitting, as these benchmarks, being publicly accessible and static, allow models to potentially tailor their responses to specific benchmark metrics, thereby inflating their performance. Addressing these limitations, our research introduces a new benchmark, named NPHardEval. This benchmark is designed to evaluate the reasoning abilities of LLMs across a broad spectrum of 900 algorithmic questions, extending up to the NP-Hard complexity class. These questions are meticulously chosen to represent a wide range of complexity class below the NP-hard complexity class, offering a rigorous measure of the reasoning ability of LLMs. Through this study, we shed light on the current state of reasoning in LLMs, providing an objective and rigorous perspective through the comparison of LLMs’ performance across complex classes. Moreover, this benchmark is designed with a dynamic update mechanism, where the datapoints are refreshed on a monthly basis. Such regular updates play a crucial role in mitigating the risk of LLMs overfitting to the benchmark, promoting a more accurate and reliable assessment of their reasoning capabilities. The benchmark dataset and code of NPHardEval are available at https://github.com/casmlab/NPHardEval.

arxiv情報

著者 Lizhou Fan,Wenyue Hua,Lingyao Li,Haoyang Ling,Yongfeng Zhang,Libby Hemphill
発行日 2023-12-22 18:07:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG パーマリンク