Square$χ$PO: Differentially Private and Robust $χ^2$-Preference Optimization in Offline Direct Alignment

要約

この論文では、好みのラベルの腐敗とプライバシー保護の両方の下で、言語モデルのオフラインアライメントと人間の好みのフィードバックを理論的に研究します。
この目的のために、正方形の$ \ chi $ poを提案します。これは、標準のログロスが確率で新しい平方損失に置き換えられる$ \ chi $ poへの単純な1行の変更です。
この新しい損失の固有のプロパティのおかげで、私たちは、差別的にプライベートで堅牢なオフラインの直接的な直接的なアートの最先端を進めました。
具体的には、ラベルプライバシーのローカルモデルの場合、Square $ \ Chi $ POは、一般的な関数近似でも単一ポリシーの濃度に基づいて最適なレートを達成する最初のアルゴリズムです。
また、プロンプト(応答)とラベルの両方でプライバシー保護の中央モデルで最初の結果をもたらします。
Huberラベルの腐敗に対する堅牢性の側面では、正方形の$ \ chi $ POは、一般的な関数近似の下で意味のある理論的保証を持つ最初のアラインメント法です。
さらに重要なことは、Square $ \ Chi $ POは、プライバシーの保護と腐敗に同時に対処できることです。ここでは、興味深い分離が観察され、プライバシーと腐敗の順序が重要であることを意味します。
さらに、正方形の$ \ chi $ poを簡単に拡張して、腐敗とプライバシーの下で最先端の保証を使用して、一般的な選好モデルのシナリオを処理できることも示します。
最後になりましたが、私たちの理論的保証はすべて、腐敗とプライバシーの制約の下での最小二乗回帰の一般化誤差境界に関する新しい結果に基づいて、統一された分析を享受しています。

要約(オリジナル)

In this paper, we theoretically study the offline alignment of language models with human preference feedback, under both preference label corruption and privacy protections. To this end, we propose Square$\chi$PO, a simple one-line change to $\chi$PO where the standard log-loss is replaced by a new square loss over probability. Thanks to the inherent properties of this new loss, we have advanced the state-of-the-art of differentially private and robust offline direct alignment. Specifically, for the local model of label privacy, Square$\chi$PO is the first algorithm that attains an optimal rate based on single-policy concentrability even with general function approximations. It also gives the first result under the central model of privacy protection over both prompts (responses) and labels. On the robustness side against Huber label corruption, Square$\chi$PO is the first alignment method that has a meaningful theoretical guarantee under general function approximations. More importantly, Square$\chi$PO can address privacy protection and corruption simultaneously, where an interesting separation is observed, implying that the order of privacy and corruption matters. Furthermore, we show that Square$\chi$PO can also be easily extended to handle the scenario of the general preference model with state-of-the-art guarantees under corruption and privacy. Last but not least, all of our theoretical guarantees enjoy a unified analysis, building upon a new result on the generalization error bounds of least-square regression under corruption and privacy constraints, which we believe is of independent interest to the community.

arxiv情報

著者 Xingyu Zhou,Yulian Wu,Wenqian Weng,Francesco Orabona
発行日 2025-05-27 16:23:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク