Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization

要約

人間のフィードバック(RLHF)からの強化学習などの言語モデルの調整方法は、言語モデルの能力の印象的な進歩をもたらしましたが、表現モデルの品質がアライメントのコースで低下する過剰な最適化として知られる広く観察された現象によって制限されています
プロセス。
モデルはオフラインの報酬モデルに関してパフォーマンスを最適化するため、不正確さに覆われ、データでカバーされている好ましい応答から離れます。
このような分布シフトを思いとどまらせるために、KL正規化は既存のオフラインアライメント方法で広く採用されていますが、過剰な最適化はパフォーマンスに害を及ぼし続けています。
これらの経験的観察の原因に対する理論的洞察を貸し出し、最初にKLの正規化が過剰適合を防ぐには弱すぎることを示し、次に次の質問を提起します。
この質問は、オフラインアライメントのための新しいアルゴリズム、$ \ chi^2 $ -preference Optimization($ \ chi $ po)で対処します。
$ \ chi $ poは、直接優先最適化への1行の変更(DPO; Rafailov et al。、2023)であり、DPO目標の対数リンク関数の変更のみを伴います。
この最小限の変化にもかかわらず、$ \ chi $ poは、$ \ chi^2 $ divergenceとの正規化による不確実性に直面して、不確実性に直面して悲観主義の原理を暗黙的に実装します。
、シングルポリシーの濃度に基づいたサンプル複合保証を達成します – オフライン強化学習におけるゴールドスタンダード。
$ \ chi $ POのシンプルさと強力な保証により、過剰な最適化に堅牢になることが証明された最初の実用的で汎用のオフラインアライメントアルゴリズムになります。

要約(オリジナル)

Language model alignment methods such as reinforcement learning from human feedback (RLHF) have led to impressive advances in language model capabilities, but are limited by a widely observed phenomenon known as overoptimization, where the quality of the language model degrades over the course of the alignment process. As the model optimizes performance with respect to an offline reward model, it overfits to inaccuracies and drifts away from preferred responses covered by the data. To discourage such distribution shift, KL-regularization is widely employed in existing offline alignment methods, but overoptimization continues to harm performance. Lending theoretical insight into the source of these empirical observations, we first show that the KL-regularization is too weak to prevent overfitting, then raise the following question: is it possible to design an efficient algorithm that is provably robust to overoptimization? We address this question with a new algorithm for offline alignment, $\chi^2$-Preference Optimization ($\chi$PO). $\chi$PO is a one-line change to Direct Preference Optimization (DPO; Rafailov et al., 2023), which only involves modifying the logarithmic link function in the DPO objective. Despite this minimal change, $\chi$PO implicitly implements the principle of pessimism in the face of uncertainty via regularization with the $\chi^2$-divergence — which quantifies uncertainty more effectively than KL-regularization — and provably alleviates overoptimization, achieving sample-complexity guarantees based on single-policy concentrability — the gold standard in offline reinforcement learning. $\chi$PO’s simplicity and strong guarantees make it the first practical and general-purpose offline alignment algorithm that is provably robust to overoptimization.

arxiv情報

著者 Audrey Huang,Wenhao Zhan,Tengyang Xie,Jason D. Lee,Wen Sun,Akshay Krishnamurthy,Dylan J. Foster
発行日 2025-02-18 17:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク