Reinforcement Learning is all You Need

要約

人間のフィードバックなしでの強化学習による推論におけるDeepseek R1の成功に触発された私たちは、純粋な強化学習を備えたカウントダウンゲームを使用して3B言語モデルを訓練します。
私たちのモデルは、5つのベンチマークのうち4つのベースラインを上回り、トレーニングデータを超えて一般化の改善を示しています。
特に、応答の長さは推論の品質と相関せず、「ahaの瞬間」が出現しますが、必ずしも正しい答えを生み出すとは限りません。
これらの調査結果は、推論強化のためのRLのみのトレーニングの可能性を強調し、報酬構造を精製するための将来の作業を正確に橋渡しすることを示唆しています。

要約(オリジナル)

Inspired by the success of DeepSeek R1 in reasoning via reinforcement learning without human feedback, we train a 3B language model using the Countdown Game with pure reinforcement learning. Our model outperforms baselines on four of five benchmarks, demonstrating improved generalization beyond its training data. Notably, response length does not correlate with reasoning quality, and while ‘aha moments’ emerge, they do not always yield correct answers. These findings highlight the potential of RL-only training for reasoning enhancement and suggest future work on refining reward structures to bridge emergent insights with accuracy.

arxiv情報

著者 Yongsheng Lian
発行日 2025-03-12 16:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク