Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards

要約

大規模な言語モデル(LLMS)の最近の開発は、トレーニング前のスケーリングからトレーニング後およびテスト時間のスケーリングに移行しました。
これらの開発全体で、主要な統一されたパラダイムが生じています。報酬信号がLLMの動作を導くためのガイドスターとして機能する報酬から学ぶことです。
補強学習(RLHF、RLAIF、DPO、GRPO)、報酬誘導デコード、事後修正など、幅広い一般的な技術を支えています。
重要なことに、このパラダイムにより、静的データからのパッシブ学習から動的フィードバックからのアクティブな学習への移行が可能になります。
これにより、LLMSは、さまざまなタスクの整合性の設定と深い推論機能を備えています。
この調査では、報酬モデルと学習戦略の観点から、トレーニング、推論、および推論後の段階で、報酬からの学習の包括的な概要を示します。
さらに、報酬モデルのベンチマークと主要なアプリケーションについて説明します。
最後に、課題と将来の方向性を強調します。
https://github.com/bobxwu/learning-from-rewards-llm-papersで紙コレクションを維持しています。

要約(オリジナル)

Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (RLHF, RLAIF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities for diverse tasks. In this survey, we present a comprehensive overview of learning from rewards, from the perspective of reward models and learning strategies across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

arxiv情報

著者 Xiaobao Wu
発行日 2025-06-12 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク