LLM2: Let Large Language Models Harness System 2 Reasoning

要約

大規模な言語モデル(LLM)は、無数のタスクにわたって印象的な機能を示していますが、時折望ましくない出力を生成します。
これらの制限は、望ましい結果と望ましくない結果を区別するためのメカニズムが本質的に欠けているLLMSの基本的な自己回帰アーキテクチャに根ざしていると仮定します。
人間の認知のデュアルプロセス理論からインスピレーションを得て、LLM2(システム1)とプロセスベースの検証(システム2)を組み合わせた新しいフレームワークであるLLM2を紹介します。
LLM2内では、LLMはもっともらしい候補を生成する責任がありますが、検証者は、望ましい出力と望ましくない出力を区別するためのタイムリーなプロセスベースのフィードバックを提供します。
検証器は、トークン品質探査戦略を通じて生成された合成プロセススーパービジョンデータのペアワイズ比較損失でトレーニングされます。
数学的推論ベンチマークに関する経験的結果は、GSM8KのLLAMA3-1Bの50.3から57.8(+7.5)の精度強化によって例示されるLLM2の有効性を実証します。
さらに、自己整合性と組み合わせると、LLM2は追加の改善を達成し、56.2から70.2(+14.0)に20の精度を高めます。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive capabilities across a myriad of tasks, yet they occasionally yield undesirable outputs. We posit that these limitations are rooted in the foundational autoregressive architecture of LLMs, which inherently lacks mechanisms for differentiating between desirable and undesirable results. Drawing inspiration from the dual-process theory of human cognition, we introduce LLM2, a novel framework that combines an LLM (System 1) with a process-based verifier (System 2). Within LLM2, the LLM is responsible for generating plausible candidates, while the verifier provides timely process-based feedback to distinguish desirable and undesirable outputs. The verifier is trained with a pairwise comparison loss on synthetic process-supervision data generated through our token quality exploration strategy. Empirical results on mathematical reasoning benchmarks substantiate the efficacy of LLM2, exemplified by an accuracy enhancement from 50.3 to 57.8 (+7.5) for Llama3-1B on GSM8K. Furthermore, when combined with self-consistency, LLM2 achieves additional improvements, boosting major@20 accuracy from 56.2 to 70.2 (+14.0).

arxiv情報

著者 Cheng Yang,Chufan Shi,Siheng Li,Bo Shui,Yujiu Yang,Wai Lam
発行日 2025-02-28 13:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク