Small Language Models Need Strong Verifiers to Self-Correct Reasoning

要約

自己修正は、大規模言語モデル (LLM) の推論パフォーマンスを向上させる有望なソリューションとして浮上しています。LLM は、エラーを正確に指摘する自己生成の批評を使用してソリューションを改良します。
この研究では、より小さいサイズ (<= 13B) の言語モデル (LM) に、より強力な LM からの最小限の入力で推論タスクを自己修正する能力があるかどうかを調査します。 私たちは、小規模な LM に自己調整能力のトレーニングをサポートする自己修正データの収集を促す新しいパイプラインを提案します。 まず、正しい解決策を活用して、モデルが誤った応答を批判できるようにします。 第 2 に、生成された批評は、フィルタリング後に、ソリューションの改良を通じて自己修正推論器の教師あり微調整に使用されます。 私たちの実験結果は、数学と常識的推論にわたる 5 つのデータセット上の 2 つのモデルの自己修正能力が向上し、強力な GPT-4 ベースの検証器と組み合わせた場合に顕著なパフォーマンスの向上が示されました。ただし、判定に弱い自己検証器を使用すると限界が確認されます。 いつ修正するか。

要約(オリジナル)

Self-correction has emerged as a promising solution to boost the reasoning performance of large language models (LLMs), where LLMs refine their solutions using self-generated critiques that pinpoint the errors. This work explores whether smaller-size (<= 13B) language models (LMs) have the ability of self-correction on reasoning tasks with minimal inputs from stronger LMs. We propose a novel pipeline that prompts smaller LMs to collect self-correction data that supports the training of self-refinement abilities. First, we leverage correct solutions to guide the model in critiquing their incorrect responses. Second, the generated critiques, after filtering, are used for supervised fine-tuning of the self-correcting reasoner through solution refinement. Our experimental results show improved self-correction abilities of two models on five datasets spanning math and commonsense reasoning, with notable performance gains when paired with a strong GPT-4-based verifier, though limitations are identified when using a weak self-verifier for determining when to correct.

arxiv情報

著者 Yunxiang Zhang,Muhammad Khalifa,Lajanugen Logeswaran,Jaekyeom Kim,Moontae Lee,Honglak Lee,Lu Wang
発行日 2024-04-26 03:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク