Reinforcement Learning Enhanced LLMs: A Survey

要約

このペーパーでは、強化学習 (RL) を使用して大規模言語モデル (LLM) を強化するという急速に成長している分野の研究について概説します。強化学習 (RL) は、LLM が出力の品質に基づいて報酬の形でフィードバックを受け取り、パフォーマンスを向上させることを可能にする手法です。
より正確で一貫性のある、状況に応じて適切な応答を生成するためにそれらを使用します。
この研究では、RL 拡張 LLM に関する最新の知識を体系的にレビューし、この分野で急速に成長している研究を統合して分析することを試み、研究者が現在の課題と進歩を理解できるように支援します。
具体的には、(1) RL の基本について詳しく説明します。
(2) 一般的な RL 拡張 LLM を導入します。
(3) 広く使用されている 2 つの報酬モデルベースの RL 手法、つまりヒューマン フィードバックからの強化学習 (RLHF) と AI フィードバックからの強化学習 (RLAIF) に関する研究をレビューします。
(4) 報酬モデルをバイパスして人間の嗜好データを直接使用して、LLM 出力を人間の期待に合わせる一連の手法である Direct Preference Optimization (DPO) を検討します。
また、既存の方法の現在の課題と欠陥を指摘し、さらなる改善のためのいくつかの道を提案します。
この研究のプロジェクト ページは、\url{https://github.com/ShuheWang1998/Reinforcement-Learning-Enhanced-LLMs-A-Survey} にあります。

要約(オリジナル)

This paper surveys research in the rapidly growing field of enhancing large language models (LLMs) with reinforcement learning (RL), a technique that enables LLMs to improve their performance by receiving feedback in the form of rewards based on the quality of their outputs, allowing them to generate more accurate, coherent, and contextually appropriate responses. In this work, we make a systematic review of the most up-to-date state of knowledge on RL-enhanced LLMs, attempting to consolidate and analyze the rapidly growing research in this field, helping researchers understand the current challenges and advancements. Specifically, we (1) detail the basics of RL; (2) introduce popular RL-enhanced LLMs; (3) review researches on two widely-used reward model-based RL techniques: Reinforcement Learning from Human Feedback (RLHF) and Reinforcement Learning from AI Feedback (RLAIF); and (4) explore Direct Preference Optimization (DPO), a set of methods that bypass the reward model to directly use human preference data for aligning LLM outputs with human expectations. We will also point out current challenges and deficiencies of existing methods and suggest some avenues for further improvements. Project page of this work can be found at: \url{https://github.com/ShuheWang1998/Reinforcement-Learning-Enhanced-LLMs-A-Survey}.

arxiv情報

著者 Shuhe Wang,Shengyu Zhang,Jie Zhang,Runyi Hu,Xiaoya Li,Tianwei Zhang,Jiwei Li,Fei Wu,Guoyin Wang,Eduard Hovy
発行日 2024-12-17 18:05:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク