要約
Openaiの新しいモデルなどの最近のAIの進歩は、LLMSをLRMS(大きな推論モデル)に変換し、推論中に推論を実行し、余分な時間をかけ、高品質の出力を計算しています。
LRMSをトレーニングするためのアルゴリズムフレームワークを明らかにすることを目指しています。
自己整合性、PRM、アルファゼロなどの方法は、ガイド付き検索としての推論を示唆しています。
私たちは尋ねます:LLMSでの検索を有効にするための最も単純で最もスケーラブルな方法は何ですか?
自己プレイ(RLSP)を介して、補強学習と呼ばれるトレーニング後のフレームワークを提案します。
RLSPには3つのステップが含まれます。(1)推論プロセスの人間または合成デモンストレーションを監督した微調整、(2)多様で効率的な推論行動を促進するための探査報酬信号を使用し、(3)結果検証者とのRLトレーニングを確実に保証するためのRLトレーニング
報酬のハッキングを防ぎながら正しさ。
私たちの主要な革新は、PPOトレーニング中に探査と正確性シグナルを切り離し、パフォーマンスと効率を向上させるために慎重にバランスをとることです。
数学ドメインの実証研究は、RLSPが推論を改善することを示しています。
llama-3.1-8b-instructモデルでは、RLSPはMATH-500テストセットで23%のパフォーマンスを向上させることができます。
AIME 2024の数学の問題では、QWEN2.5-32B-InstructはRLSPにより10%改善されました。
ただし、この作業のより重要な発見は、モデルがより単純な調査報酬を使用して、モデルがより中間の手順をとることを奨励している場合でも、バックトラッキング、アイデアの探索、検証などのいくつかの緊急行動を示したことです。
これらの調査結果は、RLSPフレームワークがスケーリング時にLLMの複雑な推論能力の出現を可能にするのに十分である可能性があることを示しています。
最後に、COTがLLMSの計算能力を増加させるという顕著な結果に触発されたLLMS戦略により、RLSP検索戦略がより適している理由についての理論を提案します。
要約(オリジナル)
Recent AI advancements, such as OpenAI’s new models, are transforming LLMs into LRMs (Large Reasoning Models) that perform reasoning during inference, taking extra time and compute for higher-quality outputs. We aim to uncover the algorithmic framework for training LRMs. Methods like self-consistency, PRM, and AlphaZero suggest reasoning as guided search. We ask: what is the simplest, most scalable way to enable search in LLMs? We propose a post-training framework called Reinforcement Learning via Self-Play (RLSP). RLSP involves three steps: (1) supervised fine-tuning with human or synthetic demonstrations of the reasoning process, (2) using an exploration reward signal to encourage diverse and efficient reasoning behaviors, and (3) RL training with an outcome verifier to ensure correctness while preventing reward hacking. Our key innovation is to decouple exploration and correctness signals during PPO training, carefully balancing them to improve performance and efficiency. Empirical studies in the math domain show that RLSP improves reasoning. On the Llama-3.1-8B-Instruct model, RLSP can boost performance by 23% in MATH-500 test set; On AIME 2024 math problems, Qwen2.5-32B-Instruct improved by 10% due to RLSP. However, a more important finding of this work is that the models trained using RLSP, even with the simplest exploration reward that encourages the model to take more intermediate steps, showed several emergent behaviors such as backtracking, exploration of ideas, and verification. These findings demonstrate that RLSP framework might be enough to enable emergence of complex reasoning abilities in LLMs when scaled. Lastly, we propose a theory as to why RLSP search strategy is more suitable for LLMs inspired by a remarkable result that says CoT provably increases computational power of LLMs, which grows as the number of steps in CoT \cite{li2024chain,merrill2023expresssive}.
arxiv情報
著者 | Guanghao Ye,Khiem Duc Pham,Xinzhi Zhang,Sivakanth Gopi,Baolin Peng,Beibin Li,Janardhan Kulkarni,Huseyin A. Inan |
発行日 | 2025-02-10 18:52:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google