要約
大規模な言語モデル(LLMS)のパフォーマンスのスケーリングは、人間の監督への依存を減らす方法にますます依存するようになります。
自動検証からの強化学習は代替品を提供しますが、人間が設計した検証因子への依存により、スケーラビリティの制限が生じます。
モデル自身の判断が監督信号を提供する自己訓練は、説得力のある方向を提示します。
モデルの自己整合性を活用して、正当な真実の監督なしで正確さのシグナルとトレーニングを推測するオンラインの自己訓練強化学習アルゴリズムを提案します。
アルゴリズムを挑戦的な数学的推論タスクに適用し、金標準の回答で明示的に訓練された強化学習方法に匹敵するパフォーマンスレベルにすぐに達することを示します。
さらに、アルゴリズムの固有の制限を分析し、自己生成されたプロキシ報酬が最初に正確性と相関する方法を強調します。
我々の結果は、自己学者の改善が外部ラベルなしで大きなパフォーマンスの向上をどのように達成できるかを示し、その基本的な課題も明らかにしています。
要約(オリジナル)
Scaling the performance of large language models (LLMs) increasingly depends on methods that reduce reliance on human supervision. Reinforcement learning from automated verification offers an alternative, but it incurs scalability limitations due to dependency upon human-designed verifiers. Self-training, where the model’s own judgment provides the supervisory signal, presents a compelling direction. We propose an online self-training reinforcement learning algorithm that leverages the model’s self-consistency to infer correctness signals and train without any ground-truth supervision. We apply the algorithm to challenging mathematical reasoning tasks and show that it quickly reaches performance levels rivaling reinforcement-learning methods trained explicitly on gold-standard answers. Additionally, we analyze inherent limitations of the algorithm, highlighting how the self-generated proxy reward initially correlated with correctness can incentivize reward hacking, where confidently incorrect outputs are favored. Our results illustrate how self-supervised improvement can achieve significant performance gains without external labels, while also revealing its fundamental challenges.
arxiv情報
著者 | Sheikh Shafayat,Fahim Tajwar,Ruslan Salakhutdinov,Jeff Schneider,Andrea Zanette |
発行日 | 2025-05-27 17:16:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google