RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

要約

基礎モデル (FM) のような生成 AI システムは、人間の行動が有益で信頼できるものであることを保証するために、人間の価値観とうまく調和する必要があります。
ヒューマン フィードバックからの強化学習 (RLHF) は、人間の判断を使用してモデルのパフォーマンスを最適化する可能性を示していますが、既存の RLHF パイプラインは主に即時フィードバックに依存しているため、ユーザーのユーティリティに対するインタラクションの下流側の影響を正確に反映できない可能性があります。
私たちは、下流の結果についての評価者の先見の明に基づくフィードバックが体系的にグッドハートの法則の力学を誘発し、おべっかや欺瞞などの誤った行動を奨励し、最終的にユーザーの成果を低下させることを実証します。
これを軽減するために、後知恵のフィードバックに RLHF を再度焦点を当てることで、評価を予測から切り離すことを提案します。
私たちの理論的分析により、たとえこれらの観測が AI システム自体によってシミュレートされた場合でも、下流の観測に対する評価者のフィードバックを調整することで不整合が軽減され、期待される人間の有用性が向上することが明らかになりました。
この洞察を実際の調整アルゴリズムで活用するために、後知恵シミュレーションによる強化学習 (RLHS) を導入します。これは、最初にもっともらしい結果をシミュレーションし、次にフィードバックを引き出して、後から考えるとどのような行動が本当に有益であったかを評価します。
私たちは RLHS をオンラインおよびオフラインで広く採用されている 2 つのプリファレンス最適化手法、近接ポリシー最適化 (PPO) と直接プリファレンス最適化 (DPO) に適用し、両方の手法で不整合が大幅に減少することを経験的に示します。
オンラインのヒトユーザー調査を通じて、シミュレートされた後知恵フィードバックのみでトレーニングされているにもかかわらず、RLHS はユーザーの目標達成を支援し、より高い満足度評価を獲得する点で RLHF を常に上回っていることを示しました。
これらの結果は、RLHF における不整合を軽減するには、たとえシミュレーションされたものであっても、長期的な影響に焦点を当てることが重要であることを強調しています。

要約(オリジナル)

Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users’ utility. We demonstrate that feedback based on evaluators’ foresight estimates of downstream consequences systematically induces Goodhart’s Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods — Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) — and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.

arxiv情報

著者 Kaiqu Liang,Haimin Hu,Ryan Liu,Thomas L. Griffiths,Jaime Fernández Fisac
発行日 2025-01-15 06:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク