Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

要約

大規模な言語モデル(LLM)は、多様なドメイン全体で顕著な推論能力を示しています。
最近の研究では、テスト時間計算の増加がLLMSの推論能力を高めることが示されています。
これには通常、外部LLM検証剤によって誘導された推論時間での広範なサンプリングが含まれ、2プレイヤーシステムが生まれます。
外部のガイダンスにもかかわらず、このシステムの有効性は、単一のLLMが複雑なタスクに取り組む可能性を示しています。
したがって、新しい研究の問題を提起します。検索機能を内面化して、単一のLLMの推論能力を根本的に強化できますか?
この作業では、自己回帰検索のためのトレーニング後のLLMSに焦点を当てた直交方向を探ります(つまり、新しい戦略の自己反省と自己実験を伴う拡張された推論プロセス)。
これを達成するために、チェーン思考(コート)の推論と2段階のトレーニングパラダイムを提案します。1)コート推論形式を内面化するための小規模な形式のチューニング段階、2)大規模な自己改善段階を活用して強化学習を活用します。
私たちのアプローチは、オープンソースモデルとデータで訓練された7B LLMであるSatoriをもたらします。
広範な経験的評価は、Satoriが数学的推論ベンチマークで最先端のパフォーマンスを達成し、ドメイン外のタスクに強い一般化を示すことを示しています。
コード、データ、およびモデルは完全にオープンソースされています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs’ reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models are fully open-sourced.

arxiv情報

著者 Maohao Shen,Guangtao Zeng,Zhenting Qi,Zhang-Wei Hong,Zhenfang Chen,Wei Lu,Gregory Wornell,Subhro Das,David Cox,Chuang Gan
発行日 2025-06-02 06:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク