Active Preference Optimization for Sample Efficient RLHF

要約

人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせる上で極めて重要です。
調整された生成モデルはさまざまなタスクで顕著な能力を示していますが、高品質の人間の嗜好データへの依存が、RLHF の実用化においてコストのかかるボトルネックを生み出しています。
主な理由の 1 つは、現在の手法が人間のフィードバックを収集するためにプロンプ​​ト生成のデータセットからプロンプト生成のペアを均一に選択することに依存しており、その結果、限られた予算の下で最適なアライメントが得られないことです。このことは、効率的なアライメントにおける適応戦略の重要性を浮き彫りにしています。
最近の研究 [Mehta et al., 2023, Muldrew et al., 2024] では、世代の不確実性に基づいてさまざまなヒューリスティックを設計することで、この問題に対処しようとしています。
ただし、[Mehta et al., 2023] の仮定は限定的であるか、[Muldrew et al., 2024] が厳密な理論的保証を提供していません。
これらに対処するために、コンテキスト嗜好バンディット フレームワーク内で RLHF を再定式化し、プロンプトをコンテキストとして扱い、アクティブ ラーニング アルゴリズム $\textit{Active Preference Optimization}$ ($\texttt{APO}$) を開発します。これにより、モデルの整合性が強化されます。
最も重要なサンプルから好みのデータをクエリし、少ないサンプル予算で優れたパフォーマンスを実現します。
BTL 優先モデルの下で $\texttt{APO}$ の理論的なパフォーマンス保証を分析し、$\texttt{APO}$ 経由で学習されたポリシーの準最適性のギャップが $O(1/\sqrt{T})$ としてスケールされることを示しています。
$T$の予算で。
また、プロンプトをランダムに選択して好みのデータを収集すると、ポリシーが常に次善の状態になることも示します。
私たちは、実用的な選好データセットに対して詳細な実験評価を実行して、既存の方法に対する $\texttt{APO}$ の有効性を検証し、サンプル効率が高く、費用対効果が高く、スケーラブルな方法での位置合わせの実用的なソリューションとして確立します。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is pivotal in aligning Large Language Models (LLMs) with human preferences. Although aligned generative models have shown remarkable abilities in various tasks, their reliance on high-quality human preference data creates a costly bottleneck in the practical application of RLHF. One primary reason is that current methods rely on uniformly picking prompt-generation pairs from a dataset of prompt-generations, to collect human feedback, resulting in sub-optimal alignment under a constrained budget, which highlights the criticality of adaptive strategies in efficient alignment. Recent works [Mehta et al., 2023, Muldrew et al., 2024] have tried to address this problem by designing various heuristics based on generation uncertainty. However, either the assumptions in [Mehta et al., 2023] are restrictive, or [Muldrew et al., 2024] do not provide any rigorous theoretical guarantee. To address these, we reformulate RLHF within contextual preference bandit framework, treating prompts as contexts, and develop an active-learning algorithm, $\textit{Active Preference Optimization}$ ($\texttt{APO}$), which enhances model alignment by querying preference data from the most important samples, achieving superior performance for small sample budget. We analyze the theoretical performance guarantees of $\texttt{APO}$ under the BTL preference model showing that the suboptimality gap of the policy learned via $\texttt{APO}$ scales as $O(1/\sqrt{T})$ for a budget of $T$. We also show that collecting preference data by choosing prompts randomly leads to a policy that suffers a constant sub-optimality. We perform detailed experimental evaluations on practical preference datasets to validate $\texttt{APO}$’s efficacy over the existing methods, establishing it as a sample-efficient and practical solution of alignment in a cost-effective and scalable manner.

arxiv情報

著者 Nirjhar Das,Souradip Chakraborty,Aldo Pacchiano,Sayak Ray Chowdhury
発行日 2024-06-05 15:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク