Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples

要約

証明の空間が手に負えないほど大きいことを考えると、一般的な演繹的推論が可能なモデルは、より複雑な証明に一般化する必要があります。
最近の研究では、大規模言語モデル (LLM) が、思考連鎖プロンプトを考慮した抽象的な演繹的推論能力を備えていることが示されています。
ただし、それらは主に、法的ポネンを使用する証明または特定のサイズの証明で、コンテキスト内の例と同じ分布からテストされています。
LLM の一般的な演繹的推論能力を測定するために、広範な演繹ルールのセットでテストし、深さ、幅、構成的な一般化などの複数の角度から、より単純な実証からより複雑な証明に一般化する能力を測定します。
体系的な探索を促進するために、演繹ルールと証明の複雑さを制御できる新しい合成的でプログラム可能な推論データセットを構築します。
さまざまなサイズとトレーニング目的の 4 つの LLM での実験では、これらの LLM がより長く構成的な証明に一般化できることがわかりました。
ただし、特に事例による証明や矛盾による証明において、仮説的な裏証明を生み出すには明示的な実証が必要です。

要約(オリジナル)

Given the intractably large size of the space of proofs, any model that is capable of general deductive reasoning must generalize to proofs of greater complexity. Recent studies have shown that large language models (LLMs) possess some abstract deductive reasoning ability given chain-of-thought prompts. However, they have primarily been tested on proofs using modus ponens or of a specific size, and from the same distribution as the in-context examples. To measure the general deductive reasoning ability of LLMs, we test on a broad set of deduction rules and measure their ability to generalize to more complex proofs from simpler demonstrations from multiple angles: depth-, width-, and compositional generalization. To facilitate systematic exploration, we construct a new synthetic and programmable reasoning dataset that enables control over deduction rules and proof complexity. Our experiments on four LLMs of various sizes and training objectives show that they are able to generalize to longer and compositional proofs. However, they require explicit demonstrations to produce hypothetical subproofs, specifically in proof by cases and proof by contradiction.

arxiv情報

著者 Abulhair Saparov,Richard Yuanzhe Pang,Vishakh Padmakumar,Nitish Joshi,Seyed Mehran Kazemi,Najoung Kim,He He
発行日 2023-05-24 15:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク