Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking

要約

AI システムを人間の好みに合わせると、不完全な報酬モデルの最適化が望ましくない動作につながる悪名高い報酬ハッキング問題に悩まされるのが一般的です。
この論文では、オフラインの嗜好最適化における報酬ハッキングを調査します。これは、嗜好データセットを使用して初期モデルを改善することを目的としています。
私たちは、データセットの統計的変動に起因する 2 つのタイプの報酬ハッキングを特定しました。1 つは標準以下の選択肢がより有利に見えることによるタイプ I 報酬ハッキング、もう 1 つはまともな選択肢があまり有利ではないように見えることによるタイプ 2 報酬ハッキングです。
私たちは、多くの (主流または理論的な) 選好最適化手法が両方のタイプの報酬ハッキングの影響を受けることを証明しました。
タイプ I 報酬ハッキングを軽減するために、Guiasu の重み付きエントロピーと堅牢な報酬最大化目標を組み合わせた新しい嗜好最適化手法である POWER を提案します。
POWER は、一般関数近似の下で有限サンプル保証を享受し、データ内で最もよくカバーされるポリシーと競合します。
タイプ II 報酬ハッキングを軽減するために、私たちは選好最適化の学習ダイナミクスを分析し、特定の「固定ラベル」に向けて選好ラベルを動的に更新する新しい技術を開発します。これにより、信頼できないサンプルの勾配が減少します。
経験的に、動的ラベルを使用した POWER (POWER-DL) は、アライメント ベンチマークで常に最先端の手法を上回り、DPO と比較して、AlpacaEval 2.0 で最大 13.0 ポイント、Arena-Hard で 11.5 ポイントの改善を達成しながら、改善または維持しています。
数学的推論などの下流タスクのパフォーマンス。
強力な理論的保証と実証結果は、報酬ハッキングの軽減における POWER-DL の有望性を実証しています。

要約(オリジナル)

Aligning AI systems with human preferences typically suffers from the infamous reward hacking problem, where optimization of an imperfect reward model leads to undesired behaviors. In this paper, we investigate reward hacking in offline preference optimization, which aims to improve an initial model using a preference dataset. We identify two types of reward hacking stemming from statistical fluctuations in the dataset: Type I Reward Hacking due to subpar choices appearing more favorable, and Type II Reward Hacking due to decent choices appearing less favorable. We prove that many (mainstream or theoretical) preference optimization methods suffer from both types of reward hacking. To mitigate Type I Reward Hacking, we propose POWER, a new preference optimization method that combines Guiasu’s weighted entropy with a robust reward maximization objective. POWER enjoys finite-sample guarantees under general function approximation, competing with the best covered policy in the data. To mitigate Type II Reward Hacking, we analyze the learning dynamics of preference optimization and develop a novel technique that dynamically updates preference labels toward certain ‘stationary labels’, resulting in diminishing gradients for untrustworthy samples. Empirically, POWER with dynamic labels (POWER-DL) consistently outperforms state-of-the-art methods on alignment benchmarks, achieving improvements of up to 13.0 points on AlpacaEval 2.0 and 11.5 points on Arena-Hard over DPO, while also improving or maintaining performance on downstream tasks such as mathematical reasoning. Strong theoretical guarantees and empirical results demonstrate the promise of POWER-DL in mitigating reward hacking.

arxiv情報

著者 Paria Rashidinejad,Yuandong Tian
発行日 2024-12-12 18:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク