Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

要約

大規模な言語モデル(LLMS)の最近の開発は、トレーニング前のスケーリングからトレーニング後およびテスト時間のスケーリングに移行しました。
これらの開発全体で、主要な統一されたパラダイムが生じています。報酬信号がLLMの動作を導くためのガイドスターとして機能する報酬から学ぶことです。
補強学習(RLHF、DPO、GRPO)、報酬誘導デコード、および事後修正など、幅広い一般的な技術を支えています。
重要なことに、このパラダイムにより、静的データからのパッシブ学習から動的フィードバックからのアクティブな学習への移行が可能になります。
これは、LLMSに整合した好みと深い推論機能を備えています。
この調査では、報酬から学習のパラダイムの包括的な概要を示します。
トレーニング、推論、および推論後の段階にわたって、このパラダイムの下で戦略を分類および分析します。
さらに、報酬モデルのベンチマークと主要なアプリケーションについて説明します。
最後に、課題と将来の方向性を強調します。
https://github.com/bobxwu/learning-from-rewards-llm-papersで紙コレクションを維持しています。

要約(オリジナル)

Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

arxiv情報

著者 Xiaobao Wu
発行日 2025-05-05 14:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク