Preference Ranking Optimization for Human Alignment

要約

大規模言語モデル (LLM) には誤解を招くコンテンツが含まれることが多く、安全な AI システムを確保するには人間の価値観に合わせて調整する必要性が強調されています。
ヒューマン フィードバックからの強化学習 (RLHF) は、通常ブラッドリーとテリーの一対の比較に基づく報酬モデルと、LLM 応答を最適化する近接ポリシー最適化 (PPO) などの RL アルゴリズムを組み合わせることにより、この調整を達成するために採用されています。
ただし、RLHF は複雑さ、不安定性、およびハイパーパラメーターに対する敏感さを示します。
このペーパーでは、ブラッドリーとテリーの比較で LLM を直接調整するための PPO の代替手段として、優先順位最適化 (PRO) を提案します。
PRO は、任意の長さの優先ランキングに対応できるように、ブラッドリーとテリーのペアごとの比較を拡張します。
PRO は、応答を生成する可能性を反復的に対比することにより、残りの応答を段階的にランク付けしながら、最良の応答を優先するように LLM に指示します。
このようにして、PRO は人間の整合性を効果的に変換して、LLM によって生成された $n$ 応答の確率ランキングを、これらの応答に対する人間の優先順位と整合させるようにします。
実験の結果、PRO は既存のアライメント アルゴリズムよりも優れており、自動ベース、報酬ベース、GPT-4、および人間の評価を通じて、ChatGPT および人間の応答と同等の結果を達成できることが示されています。
さらに、より長く、より多様で、より高品質の優先順位付けシーケンスが、ヒトによるアライメントのパフォーマンスを一貫して向上させることができることを実証します。

要約(オリジナル)

Large language models (LLMs) often contain misleading content, emphasizing the need to align them with human values to ensure secur AI systems. Reinforcement learning from human feedback (RLHF) has been employed to achieve this alignment by combining a reward model, typically based on Bradley-Terry paired comparison, with an RL algorithm such as Proximal Policy Optimization (PPO) to optimize LLM responses. However, RLHF exhibits complexity, instability, and sensitivity to hyperparameters. In this paper, we propose Preference Ranking Optimization (PRO) as an alternative to PPO for directly aligning LLMs with the Bradley-Terry comparison. PRO extends the pairwise Bradley-Terry comparison to accommodate preference rankings of any length. By iteratively contrasting the likelihood of generating responses, PRO instructs the LLM to prioritize the best response while progressively ranking the remaining responses. In this manner, PRO effectively transforms human alignment into aligning the probability ranking of $n$ responses generated by LLM with the preference ranking of humans towards these responses. Experiments have shown that PRO outperforms existing alignment algorithms, achieving comparable results to ChatGPT and human responses through automatic-based, reward-based, GPT-4, and human evaluations. Furthermore, we demonstrate that longer, more diverse, and higher-quality preference ranking sequences can consistently enhance the performance of human alignment.

arxiv情報

著者 Feifan Song,Bowen Yu,Minghao Li,Haiyang Yu,Fei Huang,Yongbin Li,Houfeng Wang
発行日 2023-06-30 09:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク