A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO

要約

この論文では、プライバシーと敵対的な腐敗に対する堅牢性との相互作用に焦点を当てて、オフラインアライメントにおけるノイズの多いラベルの効果を理論的に調査します。
具体的には、線形モデリングの仮定の下で、人間のフィードバック(RLHF)からの強化学習と直接優先最適化(DPO)の両方をカバーする統合分析を提示します。
ラベルは、プライバシー保護の前に破損しています。
分析では、ロジスティック回帰のパラメーター推定に対する線形モデリング仮定の下で、オフラインアライメント問題を減らす削減フレームワークを活用します。
このフレームワークにより、LTCとCTLの間に興味深い分離結果を確立することができ、LTCが線形モデルであっても、オフラインアライメントでCTLよりも大きな課題を提示することを示しています。
重要な副産物として、私たちの調査結果は、プライバシーのみまたは汚職のみのシナリオの下でのオフラインアライメントで最先端の理論的結果を前進させます。

要約(オリジナル)

In this paper, we theoretically investigate the effects of noisy labels in offline alignment, with a focus on the interplay between privacy and robustness against adversarial corruption. Specifically, under linear modeling assumptions, we present a unified analysis covering both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) under different privacy-corruption scenarios, such as Local differential privacy-then-Corruption (LTC), where human preference labels are privatized before being corrupted by an adversary, and Corruption-then-Local differential privacy (CTL), where labels are corrupted before privacy protection. Our analysis leverages a reduction framework that reduces the offline alignment problem under linear modeling assumptions to parameter estimation in logistic regression. This framework allows us to establish an interesting separation result between LTC and CTL, demonstrating that LTC presents a greater challenge than CTL in offline alignment, even under linear models. As important by-products, our findings also advance the state-of-the-art theoretical results in offline alignment under privacy-only or corruption-only scenarios.

arxiv情報

著者 Xingyu Zhou,Yulian Wu,Francesco Orabona
発行日 2025-05-21 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク