要約
大規模な言語モデル(LLMS)は推論に優れていますが、トレーニング後の動作をタスクの目標に合わせるためには依然として重要です。
既存の強化学習(RL)方法は、多くの場合、費用のかかる人間の注釈または外部報酬モデルに依存します。
自信(RLSC)を介した強化学習を提案します。これは、モデル自身の自信を報酬信号として使用し、ラベル、優先モデル、または報酬エンジニアリングの必要性を有効にします。
QWEN2.5-MATH-7Bには、質問ごとに16のサンプルと10または20のトレーニングステップのみで適用されたRLSCは、AIME2024で +13.4%、Math500で +21.7%、Olympiadbenchで +20.8%、AMC23で +9.7%で精度を改善します。
RLSCは、推論モデルにシンプルでスケーラブルなトレーニング後の方法を提供し、少数のサンプルと非標識監督のみを必要とします。
要約(オリジナル)
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model’s own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
arxiv情報
著者 | Pengyi Li,Matvey Skripkin,Alexander Zubrey,Andrey Kuznetsov,Ivan Oseledets |
発行日 | 2025-06-11 06:21:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google