ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting

要約

思考連鎖 (CoT) プロンプトは大規模言語モデル (LLM) の推論機能を強化し、複雑な推論タスクを解決するための主要なアプローチとしての地位を確立します。
既存の CoT 合成アプローチは通常、より単純な推論タスクに重点を置いているため、低品質で一貫性のない CoT プロンプトが生成されます。
この課題に応えて、我々は CoT プロンプトの実証的調査を提示し、優れた CoT プロンプトを自動生成するために設計された新しいフレームワークである CoTGenius を紹介します。
CoTGenius は、複雑化、多様化、特定という 3 つの主要な進化戦略に基づいて開発されており、進化の成功判断と正しさの検証という 2 つのフィルタリング メカニズムも併用されています。
さらに、CoTGenius を使用して広範な CoT データセットを作成し、その後、このデータセットで Llama 2-Chat 7B および 13B モデルを微調整します。
結果のモデルを ChainLM と呼びます。
推論ステップにおける累積誤差の問題に対処するために、複数の討論者が各推論ステップを議論して正解に到達するステップレベルのディベート方法を提案します。
広範な実験により、ChainLM モデルは、既存のモデルと比較して、さまざまな複雑な推論問題に対処する能力が向上していることが実証されています。
さらに、CoTGenius 内のデータ カテゴリがモデルのパフォーマンスに与える影響について詳細な分析を実施します。
データセットとコードは https://github.com/RUCAIBox/ChainLM でリリースされています。

要約(オリジナル)

Chain-of-Thought (CoT) prompting can enhance the reasoning capabilities of large language models (LLMs), establishing itself as a primary approach to solving complex reasoning tasks. Existing CoT synthesis approaches usually focus on simpler reasoning tasks and thus result in low-quality and inconsistent CoT prompts. In response to this challenge, we present an empirical investigation of CoT prompting and introduce CoTGenius, a novel framework designed for the automatic generation of superior CoT prompts. CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify-alongside two filtering mechanisms: evolutionary success judgement and correctness verification. We further employ CoTGenius to create an extensive CoT dataset, and subsequently fine-tune the Llama 2-Chat 7B and 13B models on this dataset. We call the resulting model ChainLM. To deal with the cumulative error issue in reasoning steps, we propose a step-level debating method, wherein multiple debaters discuss each reasoning step to arrive at the correct answer. Extensive experiments demonstrate that our ChainLM models exhibit enhanced proficiency in addressing a spectrum of complex reasoning problems compared to existing models. In addition, we conduct an in-depth analysis of the impact of data categories within CoTGenius on the model performance. We release our dataset and code at https://github.com/RUCAIBox/ChainLM.

arxiv情報

著者 Xiaoxue Cheng,Junyi Li,Wayne Xin Zhao,Ji-Rong Wen
発行日 2024-03-21 11:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク