One-Shot Safety Alignment for Large Language Models via Optimal Dualization

要約

大規模な言語モデルを取り巻く安全性への懸念が高まっているため、有用性と安全性を同時に高めるために、言語モデルを人間の多様な好みに合わせることの緊急の必要性が生じています。
有望なアプローチは、ヒューマン フィードバックからの強化学習 (RLHF) を通じて安全制約を強制することです。
このような制約のある RLHF の場合、典型的なラグランジュ ベースの主双対ポリシー最適化手法は計算コストが高く、多くの場合不安定です。
この論文では、制約付きアライメントを同等の制約のないアライメント問題に還元する二重化の観点を示します。
これは、閉じた形状を持つ滑らかで凸な双対関数を事前に最適化することで実現します。
このショートカットにより、面倒な主双対ポリシーの反復の必要性がなくなり、計算負荷が大幅に軽減され、トレーニングの安定性が向上します。
私たちの戦略は、モデルベースと設定ベースの設定における 2 つの実用的なアルゴリズム (それぞれ MoCAN と PeCAN) につながります。
幅広い実験により、当社のアルゴリズムの有効性と利点が実証されています。

要約(オリジナル)

The growing safety concerns surrounding large language models raise an urgent need to align them with diverse human preferences to simultaneously enhance their helpfulness and safety. A promising approach is to enforce safety constraints through Reinforcement Learning from Human Feedback (RLHF). For such constrained RLHF, typical Lagrangian-based primal-dual policy optimization methods are computationally expensive and often unstable. This paper presents a perspective of dualization that reduces constrained alignment to an equivalent unconstrained alignment problem. We do so by pre-optimizing a smooth and convex dual function that has a closed form. This shortcut eliminates the need for cumbersome primal-dual policy iterations, greatly reducing the computational burden and improving training stability. Our strategy leads to two practical algorithms in model-based and preference-based settings (MoCAN and PeCAN, respectively). A broad range of experiments demonstrate the effectiveness and merits of our algorithms.

arxiv情報

著者 Xinmeng Huang,Shuo Li,Edgar Dobriban,Osbert Bastani,Hamed Hassani,Dongsheng Ding
発行日 2024-11-22 05:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.OC, stat.ML パーマリンク