ThinkSum: Probabilistic reasoning over sets using large language models

要約

大規模言語モデル(LLM)は、学習データ(ゼロショット評価)または与えられたコンテキスト(数ショットインコンテキスト学習)で発生する線形テキストのパターンを再現するという、高レベルの類推推論に大きな能力を持つ。しかし、最近の研究では、より高度なLLMであっても、複数の対象や事実に対する推論や一連の論理的推論を必要とするシナリオでは失敗することが分かっている。我々は、2段階の確率的推論パラダイムであるThinkSumを提案し、構造化された方法でオブジェクトや事実の集合を推論する。第1段階(Think – 連想の検索)では、LLMはプロンプトまたは補助モデル呼び出しから抽出されたフレーズのセットに対して並列に問い合わせを行う。第2段階(Sum-確率的推論)では、これらの問い合わせの結果が集約され、最終的な予測が行われる。我々は、LLM評価タスクのBIG-benchスイートでThinkSumの可能性と利点を実証し、13の困難なタスクでGPTファミリーモデルを使用する最新技術を上回る改善を達成し、しばしばはるかに小さなモデルバリエーションで実現しました。また、ThinkSumを、思考連鎖型プロンプトのような、LLMの直接プロンプトを修正する他の提案と比較対照しました。その結果、ThinkSumの確率推論はLLMの呼び出しの外で行われるため、ThinkSumはプロンプトのデザインに影響されにくく、より解釈可能な予測値をもたらし、潜在変数モデルと柔軟に組み合わせてLLMから構造化知識を抽出することができることが示唆されました。全体として、我々の提案するパラダイムは、LLMの推論能力を向上させる有望なアプローチである。

要約(オリジナル)

Large language models (LLMs) have a substantial capacity for high-level analogical reasoning: reproducing patterns in linear text that occur in their training data (zero-shot evaluation) or in the provided context (few-shot in-context learning). However, recent studies show that even the more advanced LLMs fail in scenarios that require reasoning over multiple objects or facts and making sequences of logical deductions. We propose a two-stage probabilistic inference paradigm, ThinkSum, which reasons over sets of objects or facts in a structured manner. In the first stage (Think – retrieval of associations), a LLM is queried in parallel over a set of phrases extracted from the prompt or an auxiliary model call. In the second stage (Sum – probabilistic inference or reasoning), the results of these queries are aggregated to make the final prediction. We demonstrate the possibilities and advantages of ThinkSum on the BIG-bench suite of LLM evaluation tasks, achieving improvements over the state of the art using GPT-family models on thirteen difficult tasks, often with far smaller model variants. We also compare and contrast ThinkSum with other proposed modifications to direct prompting of LLMs, such as variants of chain-of-thought prompting. Our results suggest that because the probabilistic inference in ThinkSum is performed outside of calls to the LLM, ThinkSum is less sensitive to prompt design, yields more interpretable predictions, and can be flexibly combined with latent variable models to extract structured knowledge from LLMs. Overall, our proposed paradigm represents a promising approach for enhancing the reasoning capabilities of LLMs.

arxiv情報

著者 Batu Ozturkler,Nikolay Malkin,Zhen Wang,Nebojsa Jojic
発行日 2023-06-02 17:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク