要約
帰納的推論は問題解決能力の中核です。人間はいくつかの例から基礎となる原理を特定でき、それを新しいシナリオに確実に一般化できます。
最近の研究では、帰納的推論タスクで大規模言語モデル (LLM) を評価し、「文脈内学習」をもたらすように直接プロンプトを出しました。
これは、単純な帰納的タスクではうまく機能しますが、抽象推論コーパス (ARC) などのより複雑なタスクではあまり機能しません。
この研究では、複数の抽象レベルで明示的な仮説を生成することで、LLM の帰納的推論能力を向上させることを提案します。LLM に、問題に関する複数の抽象仮説を自然言語で提案するよう促し、その後、その自然言語仮説を具体的な Python として実装します。
プログラム。
これらのプログラムは、観察された例で実行することで直接検証でき、新しい入力に一般化できます。
最先端の LLM では生成コストが法外にかかるため、プログラムに実装される仮説セットをフィルタリングするための中間ステップを検討します。LLM に、より小さな仮説セットに要約するよう依頼するか、または
ヒューマン・アノテーターに仮説のサブセットを選択するように依頼します。
ARC 視覚帰納推論ベンチマーク、そのバリアント 1D-ARC、および文字列変換データセット SyGuS でパイプラインの有効性を検証します。
ARC のランダムな 40 問題のサブセットでは、LLM サマリーを使用した自動パイプラインは 27.5% の精度を達成し、直接プロンプトのベースライン (精度 12.5%) を大幅に上回りました。
LLM が生成した候補から選択するという最小限の人的入力により、パフォーマンスは 37.5% まで向上します。
(そして、これがフィルタリングなしのアプローチのパフォーマンスの下限であると私たちは主張します。) 私たちのアブレーション研究は、抽象的な仮説生成と具体的なプログラム表現の両方が、LLM が帰納的推論タスクを実行するのに有益であることを示しています。
要約(オリジナル)
Inductive reasoning is a core problem-solving capacity: humans can identify underlying principles from a few examples, which can then be robustly generalized to novel scenarios. Recent work has evaluated large language models (LLMs) on inductive reasoning tasks by directly prompting them yielding ‘in context learning.’ This can work well for straightforward inductive tasks, but performs very poorly on more complex tasks such as the Abstraction and Reasoning Corpus (ARC). In this work, we propose to improve the inductive reasoning ability of LLMs by generating explicit hypotheses at multiple levels of abstraction: we prompt the LLM to propose multiple abstract hypotheses about the problem, in natural language, then implement the natural language hypotheses as concrete Python programs. These programs can be directly verified by running on the observed examples and generalized to novel inputs. Because of the prohibitive cost of generation with state-of-the-art LLMs, we consider a middle step to filter the set of hypotheses that will be implemented into programs: we either ask the LLM to summarize into a smaller set of hypotheses, or ask human annotators to select a subset of the hypotheses. We verify our pipeline’s effectiveness on the ARC visual inductive reasoning benchmark, its variant 1D-ARC, and string transformation dataset SyGuS. On a random 40-problem subset of ARC, our automated pipeline using LLM summaries achieves 27.5% accuracy, significantly outperforming the direct prompting baseline (accuracy of 12.5%). With the minimal human input of selecting from LLM-generated candidates, the performance is boosted to 37.5%. (And we argue this is a lower bound on the performance of our approach without filtering.) Our ablation studies show that abstract hypothesis generation and concrete program representations are both beneficial for LLMs to perform inductive reasoning tasks.
arxiv情報
著者 | Ruocheng Wang,Eric Zelikman,Gabriel Poesia,Yewen Pu,Nick Haber,Noah D. Goodman |
発行日 | 2023-09-11 17:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google