要約
報酬モデリングは、特に人間のフィードバックからの強化学習 (RLHF) において、大規模言語モデル (LLM) を人間の好みに合わせるために重要です。
ただし、現在の報酬モデルは主にスカラー スコアを生成し、自然言語形式で批評を組み込むのに苦労しています。
私たちは、批評とスカラー報酬の両方を予測することで報酬モデリング能力が向上すると仮説を立てています。
これを動機として、私たちは、追加の監督なしで自己生成の批評を使用して報酬モデルを改善するフレームワークである Critic-RM を提案します。
Critic-RM は 2 段階のプロセスを採用しています。つまり、高品質の批評を生成してフィルタリングし、続いて報酬の予測と批評の生成を共同で微調整します。
ベンチマーク全体の実験では、Critic-RM が標準の報酬モデルや LLM ジャッジと比較して報酬モデリングの精度を 3.7% ~ 7.3% 向上させ、強力なパフォーマンスとデータ効率を実証していることが示されています。
追加の研究では、欠陥のある推論ステップを修正する際に生成された批評の有効性がさらに検証され、推論の精度が 2.5% ~ 3.2% 向上しました。
要約(オリジナル)
Reward modeling is crucial for aligning large language models (LLMs) with human preferences, especially in reinforcement learning from human feedback (RLHF). However, current reward models mainly produce scalar scores and struggle to incorporate critiques in a natural language format. We hypothesize that predicting both critiques and the scalar reward would improve reward modeling ability. Motivated by this, we propose Critic-RM, a framework that improves reward models using self-generated critiques without extra supervision. Critic-RM employs a two-stage process: generating and filtering high-quality critiques, followed by joint fine-tuning on reward prediction and critique generation. Experiments across benchmarks show that Critic-RM improves reward modeling accuracy by 3.7%-7.3% compared to standard reward models and LLM judges, demonstrating strong performance and data efficiency. Additional studies further validate the effectiveness of generated critiques in rectifying flawed reasoning steps with 2.5%-3.2% gains in improving reasoning accuracy.
arxiv情報
著者 | Yue Yu,Zhengxing Chen,Aston Zhang,Liang Tan,Chenguang Zhu,Richard Yuanzhe Pang,Yundi Qian,Xuewei Wang,Suchin Gururangan,Chao Zhang,Melanie Kambadur,Dhruv Mahajan,Rui Hou |
発行日 | 2024-11-25 18:28:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google