Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

要約

我々は、特定の CoT に到達するために必要な根本的な推論を明示的にモデル化することで、従来の思考連鎖 (CoT) を拡張する新しいフレームワークであるメタ思考連鎖 (Meta-CoT) を提案します。
私たちは、コンテキスト内検索と一致する動作を示す最先端のモデルからの経験的証拠を提示し、プロセス監視、合成データ生成、および検索アルゴリズムを介して Meta-CoT を生成する方法を探索します。
最後に、線形化された検索トレースによる命令チューニングとトレーニング後の強化学習を組み込んだ、メタ CoT を生成するモデルをトレーニングするための具体的なパイプラインの概要を説明します。
最後に、スケーリング則、検証者の役割、新しい推論アルゴリズムを発見する可能性など、未解決の研究課題について説明します。
この研究は、LLM でメタ CoT を可能にする理論的かつ実践的なロードマップを提供し、人工知能におけるより強力で人間に近い推論への道を開きます。

要約(オリジナル)

We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.

arxiv情報

著者 Violet Xiang,Charlie Snell,Kanishk Gandhi,Alon Albalak,Anikait Singh,Chase Blagden,Duy Phung,Rafael Rafailov,Nathan Lile,Dakota Mahan,Louis Castricato,Jan-Philipp Franken,Nick Haber,Chelsea Finn
発行日 2025-01-08 18:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク