Secrets of RLHF in Large Language Models Part I: PPO

要約

大規模言語モデル (LLM) は、汎用人工知能の進歩のための青写真を定式化しました。
その主な目的は、人間中心の (役立つ、正直、無害な) アシスタントとして機能することです。
人間との連携が最も重要視されており、人間によるフィードバックを伴う強化学習 (RLHF) が、この追求を支える極めて重要な技術パラダイムとして浮上しています。
現在の技術的なルートには通常、人間の好みを測定するための \textbf{報酬モデル}、ポリシー モデルの出力を最適化するための \textbf{近接ポリシー最適化} (PPO)、および段階的な推論機能を向上させるための \textbf{プロセス監視} が含まれます。
しかし、報酬設計、環境インタラクション、エージェントトレーニングの課題に加え、大規模な言語モデルの膨大な試行錯誤コストのため、AI 研究者が技術的な調整と LLM の安全な着陸の開発を動機付けるには大きな障壁があります。
RLHF の安定したトレーニングは依然としてパズルです。
最初のレポートでは、RLHF のフレームワークを詳しく分析し、PPO の内部動作を再評価し、PPO アルゴリズムを構成する部分が政策エージェントのトレーニングにどのような影響を与えるかを調査します。
私たちは、PPO アルゴリズムを効果的に実装するための重要な要素であるポリシーの制約を特定します。
したがって、ポリシー モデルのトレーニングの安定性を効率的に向上させるために、PPO アルゴリズムの高度なバージョンである PPO-max を検討します。
主な結果に基づいて、SFT モデルおよび ChatGPT と比較した RLHF 能力の包括的な分析を実行します。
オープンソース実装が存在しないため、LLM の調整の調査には大きな課題が生じています。
したがって、私たちは、LLM の進歩にささやかな貢献をすることを目指して、技術レポート、報酬モデル、および PPO コードをリリースすることに熱心です。

要約(オリジナル)

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.

arxiv情報

著者 Rui Zheng,Shihan Dou,Songyang Gao,Yuan Hua,Wei Shen,Binghai Wang,Yan Liu,Senjie Jin,Qin Liu,Yuhao Zhou,Limao Xiong,Lu Chen,Zhiheng Xi,Nuo Xu,Wenbin Lai,Minghao Zhu,Cheng Chang,Zhangyue Yin,Rongxiang Weng,Wensen Cheng,Haoran Huang,Tianxiang Sun,Hang Yan,Tao Gui,Qi Zhang,Xipeng Qiu,Xuanjing Huang
発行日 2023-07-18 08:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク