RLHF Workflow: From Reward Modeling to Online RLHF

要約

この技術レポートでは、ヒューマン フィードバックからのオンライン反復強化学習 (RLHF) のワークフローを紹介します。このワークフローは、最近の大規模言語モデル (LLM) の文献で、オフラインの対応物を大幅に上回るパフォーマンスを示すことが広く報告されています。
ただし、既存のオープンソース RLHF プロジェクトは依然としてオフライン学習環境に限定されています。
この技術レポートでは、このギャップを埋め、オンライン反復 RLHF で再現しやすい詳細なレシピを提供することを目的としています。
特に、リソースが限られているオープンソース コミュニティでは、オンラインでの人によるフィードバックは通常実行不可能であるため、さまざまなオープンソース データセットを使用して嗜好モデルを構築することから始め、構築されたプロキシ嗜好モデルを使用して人間のフィードバックに近似します。
次に、オンライン反復 RLHF の背後にある理論的洞察とアルゴリズム原理について説明し、その後、詳細な実践的な実装について説明します。
当社のトレーニング済み LLM、SFR-Iterative-DPO-LLaMA-3-8B-R は、AlpacaEval-2、Arena-Hard、MT-Bench などの LLM チャットボット ベンチマークや、HumanEval や
真実のQA。
私たちは、完全にオープンソースのデータセットを使用して、教師あり微調整 (SFT) と反復 RLHF によって最先端のパフォーマンスが得られることを示しました。
さらに、モデル、厳選されたデータセット、および包括的なステップバイステップのコード ガイドブックを一般公開しました。
詳細については、https://github.com/RLHFlow/RLHF-Reward-Modeling および https://github.com/RLHFlow/Online-RLHF を参照してください。

要約(オリジナル)

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

arxiv情報

著者 Hanze Dong,Wei Xiong,Bo Pang,Haoxiang Wang,Han Zhao,Yingbo Zhou,Nan Jiang,Doyen Sahoo,Caiming Xiong,Tong Zhang
発行日 2024-05-13 15:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク