要約
人間の好みに基づいてポリシーを最適化することは、言語モデルを人間の意図に合わせるための鍵です。
この作業は、報酬モデリング、人間のフィードバック(RLHF)からの強化学習のコアコンポーネント、および直接優先最適化などのオフライン優先最適化に焦点を当てています。
通常、従来のアプローチは正確な注釈を想定しています。
ただし、現実世界の選好データには、多くの場合、ヒューマンエラーやバイアスによるノイズが含まれています。
騒々しい好みの下で堅牢なポリシー最適化のための原則的なフレームワークを提案し、報酬モデリングを分類問題と見なします。
これにより、堅牢性が分類でノイズにラベルを付けることで知られている対称損失を活用して、対称設定最適化(Sympo)メソッドにつながります。
対称的な損失は、結果として得られる報酬がランク摂取のままであるため、ポリシーの改善に十分なプロパティであるため、騒々しいラベルの下でもポリシーの最適化を成功させることができることを証明しています。
合成および実世界のタスクに関する実験は、Sympoの有効性を示しています。
要約(オリジナル)
Optimizing policies based on human preferences is key to aligning language models with human intent. This work focuses on reward modeling, a core component in reinforcement learning from human feedback (RLHF), and offline preference optimization, such as direct preference optimization. Conventional approaches typically assume accurate annotations. However, real-world preference data often contains noise due to human errors or biases. We propose a principled framework for robust policy optimization under noisy preferences, viewing reward modeling as a classification problem. This allows us to leverage symmetric losses, known for their robustness to label noise in classification, leading to our Symmetric Preference Optimization (SymPO) method. We prove that symmetric losses enable successful policy optimization even under noisy labels, as the resulting reward remains rank-preserving — a property sufficient for policy improvement. Experiments on synthetic and real-world tasks demonstrate the effectiveness of SymPO.
arxiv情報
著者 | Soichiro Nishimori,Yu-Jie Zhang,Thanawat Lodkaew,Masashi Sugiyama |
発行日 | 2025-05-30 15:30:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google