Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

要約

現在の大規模言語モデル パイプラインで広く採用されているアプローチであるヒューマン フィードバックによる強化学習 (RLHF) は、 \textit{人間の嗜好データのサイズがボトルネック} です。
従来の方法はオフラインの嗜好データセット構築に依存していますが、最近のアプローチはオンライン設定に移行しています。学習者は、少量のラベル付きシードデータと大量のラベルなしプロンプトを使用して、自己生成の応答と高度な応答を通じて新しい嗜好データを繰り返し構築します。
質の高い報酬/好みのフィードバック。
ただし、現在のオンライン アルゴリズムのほとんどは、依然として、与えられたフィードバック オラクルによるポリシー モデルの更新中の優先ラベル付けに重点を置いているため、専門家による多大なクエリ コストが発生します。
\textit{当社は、ラベル付きデータとエキスパート クエリの予算が非常に限られている場合に、ラベル設定や報酬をさらに高めるための、費用対効果の高いプロキシ報酬オラクル構築戦略を初めて探索しました}。
私たちのアプローチでは、2 つの重要な革新が導入されています。(1) シード データの OOD と不均衡の問題を回避するオンポリシー クエリ、および (2) プリファレンス クエリに最も有益なデータを選択するアクティブ ラーニング。
これらの方法を使用して、専門家がラベル付けした最小限のデータで評価モデルをトレーニングし、その後の RLHF トレーニングのために 9 倍以上の嗜好ペアを効果的にラベル付けします。
たとえば、Direct Preference Optimization (DPO) を使用したモデルは、わずか 1.7K のクエリ コストで、AlpacaEval2、MMLU-5shot、MMLU-0shot で平均約 1% 以上の改善を実現しました。
私たちの方法論は、他の直接的なエキスパートのクエリベースの戦略と直交しているため、それらと統合してクエリのコストをさらに削減する可能性があります。

要約(オリジナル)

Reinforcement learning with human feedback (RLHF), as a widely adopted approach in current large language model pipelines, is \textit{bottlenecked by the size of human preference data}. While traditional methods rely on offline preference dataset constructions, recent approaches have shifted towards online settings, where a learner uses a small amount of labeled seed data and a large pool of unlabeled prompts to iteratively construct new preference data through self-generated responses and high-quality reward/preference feedback. However, most current online algorithms still focus on preference labeling during policy model updating with given feedback oracles, which incurs significant expert query costs. \textit{We are the first to explore cost-effective proxy reward oracles construction strategies for further labeling preferences or rewards with extremely limited labeled data and expert query budgets}. Our approach introduces two key innovations: (1) on-policy query to avoid OOD and imbalance issues in seed data, and (2) active learning to select the most informative data for preference queries. Using these methods, we train a evaluation model with minimal expert-labeled data, which then effectively labels nine times more preference pairs for further RLHF training. For instance, our model using Direct Preference Optimization (DPO) gains around over 1% average improvement on AlpacaEval2, MMLU-5shot and MMLU-0shot, with only 1.7K query cost. Our methodology is orthogonal to other direct expert query-based strategies and therefore might be integrated with them to further reduce query costs.

arxiv情報

著者 Yifang Chen,Shuohang Wang,Ziyi Yang,Hiteshi Sharma,Nikos Karampatziakis,Donghan Yu,Kevin Jamieson,Simon Shaolei Du,Yelong Shen
発行日 2024-07-09 08:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク