要約
特にヒューマン フィードバックからの強化学習 (RLHF) を通じた好みの最適化は、人間の意図に従うように大規模言語モデル (LLM) を調整することに大きな成功を収めています。
固定データセットを使用したオフラインの調整とは異なり、モデル生成に関する人間または AI からのオンライン フィードバック収集は、通常、反復プロセスを通じてより有能な報酬モデルとより適切に調整された LLM につながります。
ただし、世界的に正確な報酬モデルを達成するには、自然言語の広大な空間にわたる多様な応答を生成するための体系的な探索が必要です。
この要件を満たすには、標準の報酬を最大化する LLM からのランダム サンプリングだけでは不十分です。
この問題に対処するために、分布外領域を積極的に探索するために、潜在的に高報酬の応答に楽観的に偏った二層目標を提案します。
再パラメータ化された報酬関数を使用して内部レベルの問題を解決することにより、結果として得られる自己探索言語モデル (SELM) と呼ばれるアルゴリズムは、別個の RM の必要性を排除し、単純な目的で LLM を反復的に更新します。
直接優先最適化 (DPO) と比較して、SELM 目標は、目に見えない外挿の無差別な優先を減らし、探索効率を高めます。
私たちの実験結果は、SELM を Zephyr-7B-SFT および Llama-3-8B-Instruct モデルで微調整すると、MT-Bench や AlpacaEval 2.0 などの命令に従うベンチマークや、さまざまな標準的な学術ベンチマークのパフォーマンスを大幅に向上させることを示しています。
異なる設定。
私たちのコードとモデルは https://github.com/shenao-zhang/SELM で入手できます。
要約(オリジナル)
Preference optimization, particularly through Reinforcement Learning from Human Feedback (RLHF), has achieved significant success in aligning Large Language Models (LLMs) to adhere to human intentions. Unlike offline alignment with a fixed dataset, online feedback collection from humans or AI on model generations typically leads to more capable reward models and better-aligned LLMs through an iterative process. However, achieving a globally accurate reward model requires systematic exploration to generate diverse responses that span the vast space of natural language. Random sampling from standard reward-maximizing LLMs alone is insufficient to fulfill this requirement. To address this issue, we propose a bilevel objective optimistically biased towards potentially high-reward responses to actively explore out-of-distribution regions. By solving the inner-level problem with the reparameterized reward function, the resulting algorithm, named Self-Exploring Language Models (SELM), eliminates the need for a separate RM and iteratively updates the LLM with a straightforward objective. Compared to Direct Preference Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen extrapolations and enhances exploration efficiency. Our experimental results demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct models, SELM significantly boosts the performance on instruction-following benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard academic benchmarks in different settings. Our code and models are available at https://github.com/shenao-zhang/SELM.
arxiv情報
著者 | Shenao Zhang,Donghan Yu,Hiteshi Sharma,Ziyi Yang,Shuohang Wang,Hany Hassan,Zhaoran Wang |
発行日 | 2024-05-29 17:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google