要約
ヒューマン フィードバックからの強化学習 (RLHF) などの言語モデルの調整手法は、言語モデルの機能に目覚ましい進歩をもたらしましたが、既存の手法は、言語モデルの品質が頭打ちまたは低下する過剰最適化として広く観察される現象によって制限されています。
アライメントプロセスの過程で。
過剰最適化は、不正確な報酬モデルへの過剰適合が原因であることが多く、オンライン データ収集によって軽減できますが、多くの設定ではこれは不可能です。
これにより、根本的な疑問が生じます。既存のオフライン アライメント アルゴリズムは、保有するデータを最大限に活用しているのでしょうか、それともサンプル効率をさらに向上させることができるのでしょうか?
私たちは、オフライン調整のための新しいアルゴリズム、$\chi^2$-Preference Optimization ($\chi$PO) を使用してこの問題に対処します。
$\chi$PO は、Direct Preference Optimization (DPO; Rafailov et al., 2023) に対する 1 行の変更であり、DPO 目標の対数リンク関数の変更のみを含みます。
この最小限の変更にもかかわらず、$\chi$PO は、$\chi^2$-ダイバージェンスによる正則化を介して、不確実性に直面した場合の悲観主義の原則を暗黙的に実装します。これにより、KL 正則化よりも効果的に不確実性が定量化され、過剰最適化が緩和されることが証明されています。
、単一ポリシーの集中性に基づいてサンプルの複雑さの保証を実現します。これは、オフライン強化学習のゴールドスタンダードです。
$\chi$PO のシンプルさと強力な保証により、過剰最適化に対して堅牢であることが証明されている初の実用的かつ汎用オフライン アラインメント アルゴリズムとなっています。
要約(オリジナル)
Language model alignment methods, such as reinforcement learning from human feedback (RLHF), have led to impressive advances in language model capabilities, but existing techniques are limited by a widely observed phenomenon known as overoptimization, where the quality of the language model plateaus or degrades over the course of the alignment process. Overoptimization is often attributed to overfitting to an inaccurate reward model, and while it can be mitigated through online data collection, this is infeasible in many settings. This raises a fundamental question: Do existing offline alignment algorithms make the most of the data they have, or can their sample-efficiency be improved further? We address this question with a new algorithm for offline alignment, $\chi^2$-Preference Optimization ($\chi$PO). $\chi$PO is a one-line change to Direct Preference Optimization (DPO; Rafailov et al., 2023), which only involves modifying the logarithmic link function in the DPO objective. Despite this minimal change, $\chi$PO implicitly implements the principle of pessimism in the face of uncertainty via regularization with the $\chi^2$-divergence — which quantifies uncertainty more effectively than KL-regularization — and provably alleviates overoptimization, achieving sample-complexity guarantees based on single-policy concentrability — the gold standard in offline reinforcement learning. $\chi$PO’s simplicity and strong guarantees make it the first practical and general-purpose offline alignment algorithm that is provably robust to overoptimization.
arxiv情報
著者 | Audrey Huang,Wenhao Zhan,Tengyang Xie,Jason D. Lee,Wen Sun,Akshay Krishnamurthy,Dylan J. Foster |
発行日 | 2024-07-18 11:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google