要約
最近の進歩により、さまざまな方法論、特に思考連鎖 (CoT) 推論を通じて、大規模言語モデル (LLM) の推論機能が大幅に強化されました。
ただし、以前の方法は中間ステップでの推論エラーに対処できず、累積エラーにつながります。この論文では、CoT と演繹的推論を LLM の段階的ビーム検索とシームレスに統合する演繹的ビーム検索 (DBS) を提案します。
私たちのアプローチは検証器を導入し、推論ステップとその前提の演繹可能性を検証することで、エラーの蓄積を軽減します。
さらに、モデルの検証機能を強化するために、スケーラブルで労力のかからないデータ構築方法を導入します。
広範な実験により、私たちのアプローチが、算術、常識、記号を含む 3 つの多様な推論ジャンルからの 8 つの推論データセットにわたって、さまざまなスケール (7B、13B、70B、および ChatGPT) の LLM の基本パフォーマンスを大幅に向上させることが実証されました。
さらに、私たちの分析は、DBS が多様で微妙な推論エラーを検出する能力と、さまざまなモデル スケールでの堅牢性を証明しています。
要約(オリジナル)
Recent advancements have significantly augmented the reasoning capabilities of Large Language Models (LLMs) through various methodologies, especially chain-of-thought (CoT) reasoning. However, previous methods fail to address reasoning errors in intermediate steps, leading to accumulative errors.In this paper, we propose Deductive Beam Search (DBS), which seamlessly integrates CoT and deductive reasoning with step-wise beam search for LLMs. Our approach deploys a verifier, verifying the deducibility of a reasoning step and its premises, thus alleviating the error accumulation. Furthermore, we introduce a scalable and labor-free data construction method to amplify our model’s verification capabilities. Extensive experiments demonstrate that our approach significantly enhances the base performance of LLMs of various scales (7B, 13B, 70B, and ChatGPT) across 8 reasoning datasets from 3 diverse reasoning genres, including arithmetic, commonsense, and symbolic. Moreover, our analysis proves DBS’s capability of detecting diverse and subtle reasoning errors and robustness on different model scales.
arxiv情報
著者 | Tinghui Zhu,Kai Zhang,Jian Xie,Yu Su |
発行日 | 2024-01-31 09:16:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google