要約
大規模な言語モデル(LLM)は推論の顕著な改善を示しており、多くの既存のベンチマークは、O1やO3などのモデルによって完全または部分的に対処されています。
ただし、これらのベンチマークの大部分は、数学的公理やプログラミング構文などのルールが明確に定義されている数学的およびコーディングタスクを含む、LLMSがこれらのルールを計画および適用してソリューションに到達できることを明確に定義していることを強調しています。
対照的に、観察されたデータから根本的なルールを推測する帰納的推論は、あまり探求されていません。
このような帰納的プロセスは、研究者が経験的観察から一般的な原則を抽出できるようにするため、科学的発見の中心にあります。
LLMSがこの能力を持っているかどうかを評価するために、LLMSの帰納的推論能力を評価するために設計された新しいベンチマークである誘導ベンチを導入します。
私たちの実験的調査結果は、最も先進的なモデルでさえ、機能のサブレギュラー階層内の最も単純な複雑さクラスを習得するのに苦労しており、現在のLLMSの帰納的推論能力の顕著な不足を強調していることが明らかになりました。
CODAとデータは、https://github.com/wenyueh/inductive_reasoning_benchmarkを利用できます。
要約(オリジナル)
Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs’ inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.
arxiv情報
著者 | Wenyue Hua,Tyler Wong,Sun Fei,Liangming Pan,Adam Jardine,William Yang Wang |
発行日 | 2025-02-26 18:13:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google