InductionBench: LLMs Fail in the Simplest Complexity Class

要約

大規模言語モデル(LLM)は推論において顕著な改善を見せており、多くの既存のベンチマークはo1やo3のようなモデルによって完全または部分的に対処されている。しかし、これらのベンチマークの大半は演繹的推論を重視しており、数学的公理やプログラミング構文などのルールが明確に定義された数学的タスクやコーディングタスクが含まれる。これとは対照的に、観察されたデータから基本的なルールを推測する帰納的推論は、まだあまり研究されていない。このような帰納的プロセスは、研究者が経験的観察から一般原理を抽出することを可能にするため、科学的発見の核心に位置する。LLMがこの能力を持っているかどうかを評価するために、LLMの帰納的推論能力を評価するために設計された新しいベンチマークであるInductionBenchを紹介する。我々の実験結果は、利用可能な最も高度なモデルでさえ、関数の不規則階層内の最も単純な複雑性クラスを使いこなすのに苦労していることを明らかにし、現在のLLMの帰納的推論能力の顕著な不足を浮き彫りにしている。コーダとデータはhttps://github.com/Wenyueh/inductive_reasoning_benchmark。

要約(オリジナル)

Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs’ inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

arxiv情報

著者 Wenyue Hua,Tyler Wong,Sun Fei,Liangming Pan,Adam Jardine,William Yang Wang
発行日 2025-03-03 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.FL, cs.LG パーマリンク